# एक अधिक यथार्थवादी दुनिया हमारी स्थिति में, पीटर लगभग बिना थके या भूखे हुए इधर-उधर घूम सकता था। एक अधिक यथार्थवादी दुनिया में, उसे समय-समय पर बैठकर आराम करना पड़ता है और खुद को खिलाना भी पड़ता है। आइए निम्नलिखित नियमों को लागू करके हमारी दुनिया को अधिक यथार्थवादी बनाएं: 1. एक स्थान से दूसरे स्थान पर जाने से पीटर की **ऊर्जा** कम हो जाती है और कुछ **थकान** बढ़ जाती है। 2. पीटर सेब खाकर अधिक ऊर्जा प्राप्त कर सकता है। 3. पीटर पेड़ के नीचे या घास पर आराम करके थकान से छुटकारा पा सकता है (यानी, बोर्ड के किसी स्थान पर जाकर जहां पेड़ या घास हो - हरा क्षेत्र) 4. पीटर को भेड़िये को खोजना और मारना होगा। 5. भेड़िये को मारने के लिए, पीटर के पास ऊर्जा और थकान के निश्चित स्तर होने चाहिए, अन्यथा वह लड़ाई हार जाएगा। ## निर्देश अपने समाधान के लिए मूल [notebook.ipynb](../../../../8-Reinforcement/1-QLearning/notebook.ipynb) नोटबुक का उपयोग प्रारंभिक बिंदु के रूप में करें। ऊपर दिए गए गेम के नियमों के अनुसार इनाम फ़ंक्शन को संशोधित करें, गेम जीतने की सर्वोत्तम रणनीति सीखने के लिए पुनर्बलन सीखने के एल्गोरिदम को चलाएं, और रैंडम वॉक के परिणामों की तुलना अपने एल्गोरिदम के साथ करें कि कितने गेम जीते और हारे गए। > **Note**: आपकी नई दुनिया में, स्थिति अधिक जटिल है, और मानव स्थिति के अलावा थकान और ऊर्जा स्तर भी शामिल हैं। आप स्थिति का प्रतिनिधित्व एक ट्यूपल (Board, energy, fatigue) के रूप में कर सकते हैं, या स्थिति के लिए एक क्लास परिभाषित कर सकते हैं (आप इसे `Board` से भी व्युत्पन्न कर सकते हैं), या यहां तक कि मूल `Board` क्लास को [rlboard.py](../../../../8-Reinforcement/1-QLearning/rlboard.py) के अंदर संशोधित कर सकते हैं। अपने समाधान में, कृपया रैंडम वॉक रणनीति के लिए जिम्मेदार कोड को बनाए रखें, और अंत में अपने एल्गोरिदम के परिणामों की तुलना रैंडम वॉक से करें। > **Note**: आपको इसे काम करने के लिए हाइपरपैरामीटर को समायोजित करने की आवश्यकता हो सकती है, विशेष रूप से युगों की संख्या। क्योंकि गेम की सफलता (भेड़िये से लड़ाई) एक दुर्लभ घटना है, आप बहुत अधिक प्रशिक्षण समय की उम्मीद कर सकते हैं। ## मूल्यांकन मानदंड | मानदंड | उत्कृष्ट | पर्याप्त | सुधार की आवश्यकता | | -------- | ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------------ | | | एक नोटबुक प्रस्तुत की गई है जिसमें नई दुनिया के नियमों की परिभाषा, Q-लर्निंग एल्गोरिदम और कुछ पाठ्य विवरण शामिल हैं। Q-लर्निंग रैंडम वॉक की तुलना में परिणामों को महत्वपूर्ण रूप से सुधारने में सक्षम है। | नोटबुक प्रस्तुत की गई है, Q-लर्निंग लागू किया गया है और रैंडम वॉक की तुलना में परिणामों में सुधार करता है, लेकिन महत्वपूर्ण रूप से नहीं; या नोटबुक खराब तरीके से प्रलेखित है और कोड अच्छी तरह से संरचित नहीं है | दुनिया के नियमों को फिर से परिभाषित करने का कुछ प्रयास किया गया है, लेकिन Q-लर्निंग एल्गोरिदम काम नहीं करता, या इनाम फ़ंक्शन पूरी तरह से परिभाषित नहीं है | **अस्वीकरण**: यह दस्तावेज़ मशीन-आधारित एआई अनुवाद सेवाओं का उपयोग करके अनुवादित किया गया है। जबकि हम सटीकता के लिए प्रयास करते हैं, कृपया ध्यान दें कि स्वचालित अनुवादों में त्रुटियाँ या अशुद्धियाँ हो सकती हैं। मूल दस्तावेज़ को उसकी मूल भाषा में प्राधिकृत स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सिफारिश की जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम उत्तरदायी नहीं हैं।