You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
41 lines
8.3 KiB
41 lines
8.3 KiB
<!--
|
|
CO_OP_TRANSLATOR_METADATA:
|
|
{
|
|
"original_hash": "68394b2102d3503882e5e914bd0ff5c1",
|
|
"translation_date": "2025-08-29T18:13:24+00:00",
|
|
"source_file": "8-Reinforcement/1-QLearning/assignment.md",
|
|
"language_code": "ne"
|
|
}
|
|
-->
|
|
# एक यथार्थपरक संसार
|
|
|
|
हाम्रो परिस्थितिमा, पीटर लगभग थकित वा भोकै नभई हिँड्न सक्थ्यो। एक यथार्थपरक संसारमा, उसले समय-समयमा बस्न र आराम गर्नुपर्ने हुन्छ, साथै आफूलाई खाना खुवाउनुपर्ने हुन्छ। निम्न नियमहरू लागू गरेर हाम्रो संसारलाई अझ यथार्थपरक बनाऔं:
|
|
|
|
1. एक स्थानबाट अर्को स्थानमा सर्ने क्रममा, पीटरले **ऊर्जा** गुमाउँछ र केही **थकान** बढाउँछ।
|
|
2. पीटरले स्याउ खाएर थप ऊर्जा प्राप्त गर्न सक्छ।
|
|
3. पीटरले रुखको छेउमा वा घाँसमा आराम गरेर थकान हटाउन सक्छ (अर्थात्, रुख वा घाँस भएको बोर्ड स्थानमा हिँडेर - हरियो क्षेत्र)।
|
|
4. पीटरले भेडिया खोज्न र मार्नुपर्ने हुन्छ।
|
|
5. भेडिया मार्नको लागि, पीटरसँग निश्चित स्तरको ऊर्जा र थकान हुनुपर्छ, अन्यथा उसले युद्ध हार्छ।
|
|
|
|
## निर्देशनहरू
|
|
|
|
[notebook.ipynb](notebook.ipynb) नोटबुकलाई आफ्नो समाधानको सुरुवात बिन्दुको रूपमा प्रयोग गर्नुहोस्।
|
|
|
|
खेलका नियमहरू अनुसार माथिको पुरस्कार कार्यलाई संशोधन गर्नुहोस्, सुदृढीकरण सिकाइ एल्गोरिदम चलाएर खेल जित्ने उत्तम रणनीति सिक्नुहोस्, र खेल जित्ने र हार्ने संख्याको आधारमा आफ्नो एल्गोरिदमलाई र्यान्डम वाकसँग तुलना गर्नुहोस्।
|
|
|
|
> **Note**: तपाईंको नयाँ संसारमा, अवस्था थप जटिल छ, र मानवको स्थानको अतिरिक्त थकान र ऊर्जा स्तरहरू पनि समावेश गर्दछ। तपाईंले अवस्थालाई (Board,energy,fatigue) को रूपमा टुपलको रूपमा प्रतिनिधित्व गर्न रोज्न सक्नुहुन्छ, वा अवस्थाको लागि कक्षा परिभाषित गर्न सक्नुहुन्छ (तपाईंले यसलाई `Board` बाट व्युत्पन्न गर्न चाहन सक्नुहुन्छ), वा [rlboard.py](../../../../8-Reinforcement/1-QLearning/rlboard.py) भित्रको मूल `Board` कक्षालाई संशोधन गर्न सक्नुहुन्छ।
|
|
|
|
आफ्नो समाधानमा, कृपया र्यान्डम वाक रणनीतिका लागि जिम्मेवार कोड राख्नुहोस्, र अन्त्यमा आफ्नो एल्गोरिदमलाई र्यान्डम वाकसँग तुलना गर्नुहोस्।
|
|
|
|
> **Note**: यसलाई काम गर्नका लागि तपाईंले हाइपरप्यारामिटरहरू समायोजन गर्न आवश्यक हुन सक्छ, विशेष गरी युगहरूको संख्या। किनभने खेलको सफलता (भेडियासँग लडाइँ) दुर्लभ घटना हो, तपाईंले धेरै लामो प्रशिक्षण समयको अपेक्षा गर्न सक्नुहुन्छ।
|
|
|
|
## मूल्यांकन मापदण्ड
|
|
|
|
| मापदण्ड | उत्कृष्ट | पर्याप्त | सुधार आवश्यक |
|
|
| -------- | ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------------ |
|
|
| | नयाँ संसारका नियमहरूको परिभाषा, Q-Learning एल्गोरिदम र केही पाठ्य व्याख्याहरू सहित नोटबुक प्रस्तुत गरिएको छ। Q-Learning र्यान्डम वाकको तुलनामा परिणामहरूलाई उल्लेखनीय रूपमा सुधार गर्न सक्षम छ। | नोटबुक प्रस्तुत गरिएको छ, Q-Learning कार्यान्वयन गरिएको छ र र्यान्डम वाकको तुलनामा परिणामहरू सुधार गर्दछ, तर उल्लेखनीय रूपमा होइन; वा नोटबुक राम्रोसँग दस्तावेज गरिएको छैन र कोड राम्रो संरचित छैन। | संसारका नियमहरू पुनः परिभाषित गर्न केही प्रयास गरिएको छ, तर Q-Learning एल्गोरिदम काम गर्दैन, वा पुरस्कार कार्य पूर्ण रूपमा परिभाषित गरिएको छैन। |
|
|
|
|
---
|
|
|
|
**अस्वीकरण**:
|
|
यो दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) प्रयोग गरेर अनुवाद गरिएको छ। हामी शुद्धताको लागि प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादहरूमा त्रुटिहरू वा अशुद्धताहरू हुन सक्छ। यसको मूल भाषा मा रहेको मूल दस्तावेज़लाई आधिकारिक स्रोत मानिनुपर्छ। महत्वपूर्ण जानकारीको लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याको लागि हामी जिम्मेवार हुने छैनौं। |