8.5 KiB

Raw Permalink Blame History

एक अधिक यथार्थवादी दुनिया

हमारी स्थिति में, पीटर लगभग बिना थके या भूखे हुए घूमने में सक्षम था। एक अधिक यथार्थवादी दुनिया में, उसे समय-समय पर बैठकर आराम करना होगा और खुद को भोजन देना होगा। चलिए हमारी दुनिया को अधिक यथार्थवादी बनाते हैं, निम्नलिखित नियम लागू करके:

एक स्थान से दूसरे स्थान पर जाने से, पीटर ऊर्जा खोता है और कुछ थकान प्राप्त करता है।
पीटर सेब खाकर अधिक ऊर्जा प्राप्त कर सकता है।
पीटर पेड़ के नीचे या घास पर आराम करके थकान से छुटकारा पा सकता है (यानी बोर्ड के उस स्थान पर चलकर जहां पेड़ या घास हो - हरा क्षेत्र)।
पीटर को भेड़िये को ढूंढकर मारना होगा।
भेड़िये को मारने के लिए, पीटर के पास निश्चित स्तर की ऊर्जा और थकान होनी चाहिए, अन्यथा वह लड़ाई हार जाएगा।

निर्देश

अपने समाधान के लिए मूल notebook.ipynb नोटबुक का उपयोग प्रारंभिक बिंदु के रूप में करें।

ऊपर दिए गए खेल के नियमों के अनुसार पुरस्कार फ़ंक्शन को संशोधित करें, सुदृढीकरण सीखने का एल्गोरिदम चलाएं ताकि खेल जीतने की सबसे अच्छी रणनीति सीखी जा सके, और यादृच्छिक चाल के परिणामों की तुलना अपने एल्गोरिदम के साथ करें, खेल जीते और हारे जाने की संख्या के संदर्भ में।

Note: आपकी नई दुनिया में, स्थिति अधिक जटिल है, और इसमें मानव की स्थिति के अलावा थकान और ऊर्जा स्तर भी शामिल हैं। आप स्थिति को एक टपल (Board,energy,fatigue) के रूप में प्रस्तुत करना चुन सकते हैं, या स्थिति के लिए एक क्लास परिभाषित कर सकते हैं (आप इसे Board से भी प्राप्त कर सकते हैं), या यहां तक कि मूल Board क्लास को rlboard.py के अंदर संशोधित कर सकते हैं।

अपने समाधान में, कृपया यादृच्छिक चाल रणनीति के लिए जिम्मेदार कोड बनाए रखें, और अंत में अपने एल्गोरिदम के परिणामों की तुलना यादृच्छिक चाल के साथ करें।

Note: इसे काम करने के लिए आपको हाइपरपैरामीटर को समायोजित करने की आवश्यकता हो सकती है, विशेष रूप से epochs की संख्या। क्योंकि खेल की सफलता (भेड़िये से लड़ाई) एक दुर्लभ घटना है, आप अपेक्षा कर सकते हैं कि प्रशिक्षण समय अधिक लंबा होगा।

मूल्यांकन मानदंड

मानदंड	उत्कृष्ट	पर्याप्त	सुधार की आवश्यकता
	एक नोटबुक प्रस्तुत की गई है जिसमें नई दुनिया के नियमों की परिभाषा, Q-Learning एल्गोरिदम और कुछ पाठ्य स्पष्टीकरण शामिल हैं। Q-Learning यादृच्छिक चाल की तुलना में परिणामों को महत्वपूर्ण रूप से सुधारने में सक्षम है।	नोटबुक प्रस्तुत की गई है, Q-Learning लागू किया गया है और यादृच्छिक चाल की तुलना में परिणामों में सुधार करता है, लेकिन महत्वपूर्ण रूप से नहीं; या नोटबुक खराब तरीके से प्रलेखित है और कोड अच्छी तरह से संरचित नहीं है।	दुनिया के नियमों को फिर से परिभाषित करने का कुछ प्रयास किया गया है, लेकिन Q-Learning एल्गोरिदम काम नहीं करता है, या पुरस्कार फ़ंक्शन पूरी तरह से परिभाषित नहीं है।

अस्वीकरण:
यह दस्तावेज़ AI अनुवाद सेवा Co-op Translator का उपयोग करके अनुवादित किया गया है। जबकि हम सटीकता सुनिश्चित करने का प्रयास करते हैं, कृपया ध्यान दें कि स्वचालित अनुवाद में त्रुटियां या अशुद्धियां हो सकती हैं। मूल भाषा में उपलब्ध मूल दस्तावेज़ को आधिकारिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सिफारिश की जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम जिम्मेदार नहीं हैं।

8.5 KiB Raw Permalink Blame History

एक अधिक यथार्थवादी दुनिया

निर्देश

मूल्यांकन मानदंड

8.5 KiB

Raw Permalink Blame History