8.5 KiB
एक अधिक यथार्थवादी दुनिया
हमारी स्थिति में, पीटर लगभग बिना थके या भूखे हुए घूमने में सक्षम था। एक अधिक यथार्थवादी दुनिया में, उसे समय-समय पर बैठकर आराम करना होगा और खुद को भोजन देना होगा। चलिए हमारी दुनिया को अधिक यथार्थवादी बनाते हैं, निम्नलिखित नियम लागू करके:
- एक स्थान से दूसरे स्थान पर जाने से, पीटर ऊर्जा खोता है और कुछ थकान प्राप्त करता है।
- पीटर सेब खाकर अधिक ऊर्जा प्राप्त कर सकता है।
- पीटर पेड़ के नीचे या घास पर आराम करके थकान से छुटकारा पा सकता है (यानी बोर्ड के उस स्थान पर चलकर जहां पेड़ या घास हो - हरा क्षेत्र)।
- पीटर को भेड़िये को ढूंढकर मारना होगा।
- भेड़िये को मारने के लिए, पीटर के पास निश्चित स्तर की ऊर्जा और थकान होनी चाहिए, अन्यथा वह लड़ाई हार जाएगा।
निर्देश
अपने समाधान के लिए मूल notebook.ipynb नोटबुक का उपयोग प्रारंभिक बिंदु के रूप में करें।
ऊपर दिए गए खेल के नियमों के अनुसार पुरस्कार फ़ंक्शन को संशोधित करें, सुदृढीकरण सीखने का एल्गोरिदम चलाएं ताकि खेल जीतने की सबसे अच्छी रणनीति सीखी जा सके, और यादृच्छिक चाल के परिणामों की तुलना अपने एल्गोरिदम के साथ करें, खेल जीते और हारे जाने की संख्या के संदर्भ में।
Note: आपकी नई दुनिया में, स्थिति अधिक जटिल है, और इसमें मानव की स्थिति के अलावा थकान और ऊर्जा स्तर भी शामिल हैं। आप स्थिति को एक टपल (Board,energy,fatigue) के रूप में प्रस्तुत करना चुन सकते हैं, या स्थिति के लिए एक क्लास परिभाषित कर सकते हैं (आप इसे
Board
से भी प्राप्त कर सकते हैं), या यहां तक कि मूलBoard
क्लास को rlboard.py के अंदर संशोधित कर सकते हैं।
अपने समाधान में, कृपया यादृच्छिक चाल रणनीति के लिए जिम्मेदार कोड बनाए रखें, और अंत में अपने एल्गोरिदम के परिणामों की तुलना यादृच्छिक चाल के साथ करें।
Note: इसे काम करने के लिए आपको हाइपरपैरामीटर को समायोजित करने की आवश्यकता हो सकती है, विशेष रूप से epochs की संख्या। क्योंकि खेल की सफलता (भेड़िये से लड़ाई) एक दुर्लभ घटना है, आप अपेक्षा कर सकते हैं कि प्रशिक्षण समय अधिक लंबा होगा।
मूल्यांकन मानदंड
मानदंड | उत्कृष्ट | पर्याप्त | सुधार की आवश्यकता |
---|---|---|---|
एक नोटबुक प्रस्तुत की गई है जिसमें नई दुनिया के नियमों की परिभाषा, Q-Learning एल्गोरिदम और कुछ पाठ्य स्पष्टीकरण शामिल हैं। Q-Learning यादृच्छिक चाल की तुलना में परिणामों को महत्वपूर्ण रूप से सुधारने में सक्षम है। | नोटबुक प्रस्तुत की गई है, Q-Learning लागू किया गया है और यादृच्छिक चाल की तुलना में परिणामों में सुधार करता है, लेकिन महत्वपूर्ण रूप से नहीं; या नोटबुक खराब तरीके से प्रलेखित है और कोड अच्छी तरह से संरचित नहीं है। | दुनिया के नियमों को फिर से परिभाषित करने का कुछ प्रयास किया गया है, लेकिन Q-Learning एल्गोरिदम काम नहीं करता है, या पुरस्कार फ़ंक्शन पूरी तरह से परिभाषित नहीं है। |
अस्वीकरण:
यह दस्तावेज़ AI अनुवाद सेवा Co-op Translator का उपयोग करके अनुवादित किया गया है। जबकि हम सटीकता सुनिश्चित करने का प्रयास करते हैं, कृपया ध्यान दें कि स्वचालित अनुवाद में त्रुटियां या अशुद्धियां हो सकती हैं। मूल भाषा में उपलब्ध मूल दस्तावेज़ को आधिकारिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सिफारिश की जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम जिम्मेदार नहीं हैं।