8.1 KiB

Raw Permalink Blame History

एक अधिक यथार्थवादी दुनिया

हमारी स्थिति में, पीटर लगभग बिना थके या भूखे हुए इधर-उधर घूम सकता था। एक अधिक यथार्थवादी दुनिया में, उसे समय-समय पर बैठकर आराम करना पड़ता है और खुद को खिलाना भी पड़ता है। आइए निम्नलिखित नियमों को लागू करके हमारी दुनिया को अधिक यथार्थवादी बनाएं:

एक स्थान से दूसरे स्थान पर जाने से पीटर की ऊर्जा कम हो जाती है और कुछ थकान बढ़ जाती है।
पीटर सेब खाकर अधिक ऊर्जा प्राप्त कर सकता है।
पीटर पेड़ के नीचे या घास पर आराम करके थकान से छुटकारा पा सकता है (यानी, बोर्ड के किसी स्थान पर जाकर जहां पेड़ या घास हो - हरा क्षेत्र)
पीटर को भेड़िये को खोजना और मारना होगा।
भेड़िये को मारने के लिए, पीटर के पास ऊर्जा और थकान के निश्चित स्तर होने चाहिए, अन्यथा वह लड़ाई हार जाएगा।

निर्देश

अपने समाधान के लिए मूल notebook.ipynb नोटबुक का उपयोग प्रारंभिक बिंदु के रूप में करें।

ऊपर दिए गए गेम के नियमों के अनुसार इनाम फ़ंक्शन को संशोधित करें, गेम जीतने की सर्वोत्तम रणनीति सीखने के लिए पुनर्बलन सीखने के एल्गोरिदम को चलाएं, और रैंडम वॉक के परिणामों की तुलना अपने एल्गोरिदम के साथ करें कि कितने गेम जीते और हारे गए।

Note: आपकी नई दुनिया में, स्थिति अधिक जटिल है, और मानव स्थिति के अलावा थकान और ऊर्जा स्तर भी शामिल हैं। आप स्थिति का प्रतिनिधित्व एक ट्यूपल (Board, energy, fatigue) के रूप में कर सकते हैं, या स्थिति के लिए एक क्लास परिभाषित कर सकते हैं (आप इसे Board से भी व्युत्पन्न कर सकते हैं), या यहां तक कि मूल Board क्लास को rlboard.py के अंदर संशोधित कर सकते हैं।

अपने समाधान में, कृपया रैंडम वॉक रणनीति के लिए जिम्मेदार कोड को बनाए रखें, और अंत में अपने एल्गोरिदम के परिणामों की तुलना रैंडम वॉक से करें।

Note: आपको इसे काम करने के लिए हाइपरपैरामीटर को समायोजित करने की आवश्यकता हो सकती है, विशेष रूप से युगों की संख्या। क्योंकि गेम की सफलता (भेड़िये से लड़ाई) एक दुर्लभ घटना है, आप बहुत अधिक प्रशिक्षण समय की उम्मीद कर सकते हैं।

मूल्यांकन मानदंड

मानदंड	उत्कृष्ट	पर्याप्त	सुधार की आवश्यकता
	एक नोटबुक प्रस्तुत की गई है जिसमें नई दुनिया के नियमों की परिभाषा, Q-लर्निंग एल्गोरिदम और कुछ पाठ्य विवरण शामिल हैं। Q-लर्निंग रैंडम वॉक की तुलना में परिणामों को महत्वपूर्ण रूप से सुधारने में सक्षम है।	नोटबुक प्रस्तुत की गई है, Q-लर्निंग लागू किया गया है और रैंडम वॉक की तुलना में परिणामों में सुधार करता है, लेकिन महत्वपूर्ण रूप से नहीं; या नोटबुक खराब तरीके से प्रलेखित है और कोड अच्छी तरह से संरचित नहीं है	दुनिया के नियमों को फिर से परिभाषित करने का कुछ प्रयास किया गया है, लेकिन Q-लर्निंग एल्गोरिदम काम नहीं करता, या इनाम फ़ंक्शन पूरी तरह से परिभाषित नहीं है

अस्वीकरण: यह दस्तावेज़ मशीन-आधारित एआई अनुवाद सेवाओं का उपयोग करके अनुवादित किया गया है। जबकि हम सटीकता के लिए प्रयास करते हैं, कृपया ध्यान दें कि स्वचालित अनुवादों में त्रुटियाँ या अशुद्धियाँ हो सकती हैं। मूल दस्तावेज़ को उसकी मूल भाषा में प्राधिकृत स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सिफारिश की जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम उत्तरदायी नहीं हैं।

8.1 KiB Raw Permalink Blame History

एक अधिक यथार्थवादी दुनिया

निर्देश

मूल्यांकन मानदंड

8.1 KiB

Raw Permalink Blame History