# एक यथार्थपरक संसार हाम्रो परिस्थितिमा, पीटर लगभग थकित वा भोकै नभई हिँड्न सक्थ्यो। एक यथार्थपरक संसारमा, उसले समय-समयमा बस्न र आराम गर्नुपर्ने हुन्छ, साथै आफूलाई खाना खुवाउनुपर्ने हुन्छ। निम्न नियमहरू लागू गरेर हाम्रो संसारलाई अझ यथार्थपरक बनाऔं: 1. एक स्थानबाट अर्को स्थानमा सर्ने क्रममा, पीटरले **ऊर्जा** गुमाउँछ र केही **थकान** बढाउँछ। 2. पीटरले स्याउ खाएर थप ऊर्जा प्राप्त गर्न सक्छ। 3. पीटरले रुखको छेउमा वा घाँसमा आराम गरेर थकान हटाउन सक्छ (अर्थात्, रुख वा घाँस भएको बोर्ड स्थानमा हिँडेर - हरियो क्षेत्र)। 4. पीटरले भेडिया खोज्न र मार्नुपर्ने हुन्छ। 5. भेडिया मार्नको लागि, पीटरसँग निश्चित स्तरको ऊर्जा र थकान हुनुपर्छ, अन्यथा उसले युद्ध हार्छ। ## निर्देशनहरू [notebook.ipynb](notebook.ipynb) नोटबुकलाई आफ्नो समाधानको सुरुवात बिन्दुको रूपमा प्रयोग गर्नुहोस्। खेलका नियमहरू अनुसार माथिको पुरस्कार कार्यलाई संशोधन गर्नुहोस्, सुदृढीकरण सिकाइ एल्गोरिदम चलाएर खेल जित्ने उत्तम रणनीति सिक्नुहोस्, र खेल जित्ने र हार्ने संख्याको आधारमा आफ्नो एल्गोरिदमलाई र्यान्डम वाकसँग तुलना गर्नुहोस्। > **Note**: तपाईंको नयाँ संसारमा, अवस्था थप जटिल छ, र मानवको स्थानको अतिरिक्त थकान र ऊर्जा स्तरहरू पनि समावेश गर्दछ। तपाईंले अवस्थालाई (Board,energy,fatigue) को रूपमा टुपलको रूपमा प्रतिनिधित्व गर्न रोज्न सक्नुहुन्छ, वा अवस्थाको लागि कक्षा परिभाषित गर्न सक्नुहुन्छ (तपाईंले यसलाई `Board` बाट व्युत्पन्न गर्न चाहन सक्नुहुन्छ), वा [rlboard.py](../../../../8-Reinforcement/1-QLearning/rlboard.py) भित्रको मूल `Board` कक्षालाई संशोधन गर्न सक्नुहुन्छ। आफ्नो समाधानमा, कृपया र्यान्डम वाक रणनीतिका लागि जिम्मेवार कोड राख्नुहोस्, र अन्त्यमा आफ्नो एल्गोरिदमलाई र्यान्डम वाकसँग तुलना गर्नुहोस्। > **Note**: यसलाई काम गर्नका लागि तपाईंले हाइपरप्यारामिटरहरू समायोजन गर्न आवश्यक हुन सक्छ, विशेष गरी युगहरूको संख्या। किनभने खेलको सफलता (भेडियासँग लडाइँ) दुर्लभ घटना हो, तपाईंले धेरै लामो प्रशिक्षण समयको अपेक्षा गर्न सक्नुहुन्छ। ## मूल्यांकन मापदण्ड | मापदण्ड | उत्कृष्ट | पर्याप्त | सुधार आवश्यक | | -------- | ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------------ | | | नयाँ संसारका नियमहरूको परिभाषा, Q-Learning एल्गोरिदम र केही पाठ्य व्याख्याहरू सहित नोटबुक प्रस्तुत गरिएको छ। Q-Learning र्यान्डम वाकको तुलनामा परिणामहरूलाई उल्लेखनीय रूपमा सुधार गर्न सक्षम छ। | नोटबुक प्रस्तुत गरिएको छ, Q-Learning कार्यान्वयन गरिएको छ र र्यान्डम वाकको तुलनामा परिणामहरू सुधार गर्दछ, तर उल्लेखनीय रूपमा होइन; वा नोटबुक राम्रोसँग दस्तावेज गरिएको छैन र कोड राम्रो संरचित छैन। | संसारका नियमहरू पुनः परिभाषित गर्न केही प्रयास गरिएको छ, तर Q-Learning एल्गोरिदम काम गर्दैन, वा पुरस्कार कार्य पूर्ण रूपमा परिभाषित गरिएको छैन। | --- **अस्वीकरण**: यो दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) प्रयोग गरेर अनुवाद गरिएको छ। हामी शुद्धताको लागि प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादहरूमा त्रुटिहरू वा अशुद्धताहरू हुन सक्छ। यसको मूल भाषा मा रहेको मूल दस्तावेज़लाई आधिकारिक स्रोत मानिनुपर्छ। महत्वपूर्ण जानकारीको लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याको लागि हामी जिम्मेवार हुने छैनौं।