<!--
CO_OP_TRANSLATOR_METADATA:
{
  "original_hash": "68394b2102d3503882e5e914bd0ff5c1",
  "translation_date": "2025-08-29T18:13:24+00:00",
  "source_file": "8-Reinforcement/1-QLearning/assignment.md",
  "language_code": "ne"
}
-->
# एक यथार्थपरक संसार

हाम्रो परिस्थितिमा, पीटर लगभग थकित वा भोकै नभई हिँड्न सक्थ्यो। एक यथार्थपरक संसारमा, उसले समय-समयमा बस्न र आराम गर्नुपर्ने हुन्छ, साथै आफूलाई खाना खुवाउनुपर्ने हुन्छ। निम्न नियमहरू लागू गरेर हाम्रो संसारलाई अझ यथार्थपरक बनाऔं:

1. एक स्थानबाट अर्को स्थानमा सर्ने क्रममा, पीटरले **ऊर्जा** गुमाउँछ र केही **थकान** बढाउँछ।
2. पीटरले स्याउ खाएर थप ऊर्जा प्राप्त गर्न सक्छ।
3. पीटरले रुखको छेउमा वा घाँसमा आराम गरेर थकान हटाउन सक्छ (अर्थात्, रुख वा घाँस भएको बोर्ड स्थानमा हिँडेर - हरियो क्षेत्र)।
4. पीटरले भेडिया खोज्न र मार्नुपर्ने हुन्छ।
5. भेडिया मार्नको लागि, पीटरसँग निश्चित स्तरको ऊर्जा र थकान हुनुपर्छ, अन्यथा उसले युद्ध हार्छ।

## निर्देशनहरू

[notebook.ipynb](notebook.ipynb) नोटबुकलाई आफ्नो समाधानको सुरुवात बिन्दुको रूपमा प्रयोग गर्नुहोस्।

खेलका नियमहरू अनुसार माथिको पुरस्कार कार्यलाई संशोधन गर्नुहोस्, सुदृढीकरण सिकाइ एल्गोरिदम चलाएर खेल जित्ने उत्तम रणनीति सिक्नुहोस्, र खेल जित्ने र हार्ने संख्याको आधारमा आफ्नो एल्गोरिदमलाई र्यान्डम वाकसँग तुलना गर्नुहोस्।

> **Note**: तपाईंको नयाँ संसारमा, अवस्था थप जटिल छ, र मानवको स्थानको अतिरिक्त थकान र ऊर्जा स्तरहरू पनि समावेश गर्दछ। तपाईंले अवस्थालाई (Board,energy,fatigue) को रूपमा टुपलको रूपमा प्रतिनिधित्व गर्न रोज्न सक्नुहुन्छ, वा अवस्थाको लागि कक्षा परिभाषित गर्न सक्नुहुन्छ (तपाईंले यसलाई `Board` बाट व्युत्पन्न गर्न चाहन सक्नुहुन्छ), वा [rlboard.py](../../../../8-Reinforcement/1-QLearning/rlboard.py) भित्रको मूल `Board` कक्षालाई संशोधन गर्न सक्नुहुन्छ।

आफ्नो समाधानमा, कृपया र्यान्डम वाक रणनीतिका लागि जिम्मेवार कोड राख्नुहोस्, र अन्त्यमा आफ्नो एल्गोरिदमलाई र्यान्डम वाकसँग तुलना गर्नुहोस्।

> **Note**: यसलाई काम गर्नका लागि तपाईंले हाइपरप्यारामिटरहरू समायोजन गर्न आवश्यक हुन सक्छ, विशेष गरी युगहरूको संख्या। किनभने खेलको सफलता (भेडियासँग लडाइँ) दुर्लभ घटना हो, तपाईंले धेरै लामो प्रशिक्षण समयको अपेक्षा गर्न सक्नुहुन्छ।

## मूल्यांकन मापदण्ड

| मापदण्ड | उत्कृष्ट                                                                                                                                                                                             | पर्याप्त                                                                                                                                                                                | सुधार आवश्यक                                                                                                                          |
| -------- | ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------------ |
|          | नयाँ संसारका नियमहरूको परिभाषा, Q-Learning एल्गोरिदम र केही पाठ्य व्याख्याहरू सहित नोटबुक प्रस्तुत गरिएको छ। Q-Learning र्यान्डम वाकको तुलनामा परिणामहरूलाई उल्लेखनीय रूपमा सुधार गर्न सक्षम छ। | नोटबुक प्रस्तुत गरिएको छ, Q-Learning कार्यान्वयन गरिएको छ र र्यान्डम वाकको तुलनामा परिणामहरू सुधार गर्दछ, तर उल्लेखनीय रूपमा होइन; वा नोटबुक राम्रोसँग दस्तावेज गरिएको छैन र कोड राम्रो संरचित छैन। | संसारका नियमहरू पुनः परिभाषित गर्न केही प्रयास गरिएको छ, तर Q-Learning एल्गोरिदम काम गर्दैन, वा पुरस्कार कार्य पूर्ण रूपमा परिभाषित गरिएको छैन। |

---

**अस्वीकरण**:  
यो दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) प्रयोग गरेर अनुवाद गरिएको छ। हामी शुद्धताको लागि प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादहरूमा त्रुटिहरू वा अशुद्धताहरू हुन सक्छ। यसको मूल भाषा मा रहेको मूल दस्तावेज़लाई आधिकारिक स्रोत मानिनुपर्छ। महत्वपूर्ण जानकारीको लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याको लागि हामी जिम्मेवार हुने छैनौं।