8.1 KiB
एक अधिक यथार्थवादी दुनिया
हमारी स्थिति में, पीटर लगभग बिना थके या भूखे हुए इधर-उधर घूम सकता था। एक अधिक यथार्थवादी दुनिया में, उसे समय-समय पर बैठकर आराम करना पड़ता है और खुद को खिलाना भी पड़ता है। आइए निम्नलिखित नियमों को लागू करके हमारी दुनिया को अधिक यथार्थवादी बनाएं:
- एक स्थान से दूसरे स्थान पर जाने से पीटर की ऊर्जा कम हो जाती है और कुछ थकान बढ़ जाती है।
- पीटर सेब खाकर अधिक ऊर्जा प्राप्त कर सकता है।
- पीटर पेड़ के नीचे या घास पर आराम करके थकान से छुटकारा पा सकता है (यानी, बोर्ड के किसी स्थान पर जाकर जहां पेड़ या घास हो - हरा क्षेत्र)
- पीटर को भेड़िये को खोजना और मारना होगा।
- भेड़िये को मारने के लिए, पीटर के पास ऊर्जा और थकान के निश्चित स्तर होने चाहिए, अन्यथा वह लड़ाई हार जाएगा।
निर्देश
अपने समाधान के लिए मूल notebook.ipynb नोटबुक का उपयोग प्रारंभिक बिंदु के रूप में करें।
ऊपर दिए गए गेम के नियमों के अनुसार इनाम फ़ंक्शन को संशोधित करें, गेम जीतने की सर्वोत्तम रणनीति सीखने के लिए पुनर्बलन सीखने के एल्गोरिदम को चलाएं, और रैंडम वॉक के परिणामों की तुलना अपने एल्गोरिदम के साथ करें कि कितने गेम जीते और हारे गए।
Note: आपकी नई दुनिया में, स्थिति अधिक जटिल है, और मानव स्थिति के अलावा थकान और ऊर्जा स्तर भी शामिल हैं। आप स्थिति का प्रतिनिधित्व एक ट्यूपल (Board, energy, fatigue) के रूप में कर सकते हैं, या स्थिति के लिए एक क्लास परिभाषित कर सकते हैं (आप इसे
Board
से भी व्युत्पन्न कर सकते हैं), या यहां तक कि मूलBoard
क्लास को rlboard.py के अंदर संशोधित कर सकते हैं।
अपने समाधान में, कृपया रैंडम वॉक रणनीति के लिए जिम्मेदार कोड को बनाए रखें, और अंत में अपने एल्गोरिदम के परिणामों की तुलना रैंडम वॉक से करें।
Note: आपको इसे काम करने के लिए हाइपरपैरामीटर को समायोजित करने की आवश्यकता हो सकती है, विशेष रूप से युगों की संख्या। क्योंकि गेम की सफलता (भेड़िये से लड़ाई) एक दुर्लभ घटना है, आप बहुत अधिक प्रशिक्षण समय की उम्मीद कर सकते हैं।
मूल्यांकन मानदंड
मानदंड | उत्कृष्ट | पर्याप्त | सुधार की आवश्यकता |
---|---|---|---|
एक नोटबुक प्रस्तुत की गई है जिसमें नई दुनिया के नियमों की परिभाषा, Q-लर्निंग एल्गोरिदम और कुछ पाठ्य विवरण शामिल हैं। Q-लर्निंग रैंडम वॉक की तुलना में परिणामों को महत्वपूर्ण रूप से सुधारने में सक्षम है। | नोटबुक प्रस्तुत की गई है, Q-लर्निंग लागू किया गया है और रैंडम वॉक की तुलना में परिणामों में सुधार करता है, लेकिन महत्वपूर्ण रूप से नहीं; या नोटबुक खराब तरीके से प्रलेखित है और कोड अच्छी तरह से संरचित नहीं है | दुनिया के नियमों को फिर से परिभाषित करने का कुछ प्रयास किया गया है, लेकिन Q-लर्निंग एल्गोरिदम काम नहीं करता, या इनाम फ़ंक्शन पूरी तरह से परिभाषित नहीं है |
अस्वीकरण: यह दस्तावेज़ मशीन-आधारित एआई अनुवाद सेवाओं का उपयोग करके अनुवादित किया गया है। जबकि हम सटीकता के लिए प्रयास करते हैं, कृपया ध्यान दें कि स्वचालित अनुवादों में त्रुटियाँ या अशुद्धियाँ हो सकती हैं। मूल दस्तावेज़ को उसकी मूल भाषा में प्राधिकृत स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सिफारिश की जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम उत्तरदायी नहीं हैं।