You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
ML-For-Beginners/translations/hi/8-Reinforcement/1-QLearning/assignment.md

8.5 KiB

एक अधिक यथार्थवादी दुनिया

हमारी स्थिति में, पीटर लगभग बिना थके या भूखे हुए घूमने में सक्षम था। एक अधिक यथार्थवादी दुनिया में, उसे समय-समय पर बैठकर आराम करना होगा और खुद को भोजन देना होगा। चलिए हमारी दुनिया को अधिक यथार्थवादी बनाते हैं, निम्नलिखित नियम लागू करके:

  1. एक स्थान से दूसरे स्थान पर जाने से, पीटर ऊर्जा खोता है और कुछ थकान प्राप्त करता है।
  2. पीटर सेब खाकर अधिक ऊर्जा प्राप्त कर सकता है।
  3. पीटर पेड़ के नीचे या घास पर आराम करके थकान से छुटकारा पा सकता है (यानी बोर्ड के उस स्थान पर चलकर जहां पेड़ या घास हो - हरा क्षेत्र)।
  4. पीटर को भेड़िये को ढूंढकर मारना होगा।
  5. भेड़िये को मारने के लिए, पीटर के पास निश्चित स्तर की ऊर्जा और थकान होनी चाहिए, अन्यथा वह लड़ाई हार जाएगा।

निर्देश

अपने समाधान के लिए मूल notebook.ipynb नोटबुक का उपयोग प्रारंभिक बिंदु के रूप में करें।

ऊपर दिए गए खेल के नियमों के अनुसार पुरस्कार फ़ंक्शन को संशोधित करें, सुदृढीकरण सीखने का एल्गोरिदम चलाएं ताकि खेल जीतने की सबसे अच्छी रणनीति सीखी जा सके, और यादृच्छिक चाल के परिणामों की तुलना अपने एल्गोरिदम के साथ करें, खेल जीते और हारे जाने की संख्या के संदर्भ में।

Note: आपकी नई दुनिया में, स्थिति अधिक जटिल है, और इसमें मानव की स्थिति के अलावा थकान और ऊर्जा स्तर भी शामिल हैं। आप स्थिति को एक टपल (Board,energy,fatigue) के रूप में प्रस्तुत करना चुन सकते हैं, या स्थिति के लिए एक क्लास परिभाषित कर सकते हैं (आप इसे Board से भी प्राप्त कर सकते हैं), या यहां तक कि मूल Board क्लास को rlboard.py के अंदर संशोधित कर सकते हैं।

अपने समाधान में, कृपया यादृच्छिक चाल रणनीति के लिए जिम्मेदार कोड बनाए रखें, और अंत में अपने एल्गोरिदम के परिणामों की तुलना यादृच्छिक चाल के साथ करें।

Note: इसे काम करने के लिए आपको हाइपरपैरामीटर को समायोजित करने की आवश्यकता हो सकती है, विशेष रूप से epochs की संख्या। क्योंकि खेल की सफलता (भेड़िये से लड़ाई) एक दुर्लभ घटना है, आप अपेक्षा कर सकते हैं कि प्रशिक्षण समय अधिक लंबा होगा।

मूल्यांकन मानदंड

मानदंड उत्कृष्ट पर्याप्त सुधार की आवश्यकता
एक नोटबुक प्रस्तुत की गई है जिसमें नई दुनिया के नियमों की परिभाषा, Q-Learning एल्गोरिदम और कुछ पाठ्य स्पष्टीकरण शामिल हैं। Q-Learning यादृच्छिक चाल की तुलना में परिणामों को महत्वपूर्ण रूप से सुधारने में सक्षम है। नोटबुक प्रस्तुत की गई है, Q-Learning लागू किया गया है और यादृच्छिक चाल की तुलना में परिणामों में सुधार करता है, लेकिन महत्वपूर्ण रूप से नहीं; या नोटबुक खराब तरीके से प्रलेखित है और कोड अच्छी तरह से संरचित नहीं है। दुनिया के नियमों को फिर से परिभाषित करने का कुछ प्रयास किया गया है, लेकिन Q-Learning एल्गोरिदम काम नहीं करता है, या पुरस्कार फ़ंक्शन पूरी तरह से परिभाषित नहीं है।

अस्वीकरण:
यह दस्तावेज़ AI अनुवाद सेवा Co-op Translator का उपयोग करके अनुवादित किया गया है। जबकि हम सटीकता सुनिश्चित करने का प्रयास करते हैं, कृपया ध्यान दें कि स्वचालित अनुवाद में त्रुटियां या अशुद्धियां हो सकती हैं। मूल भाषा में उपलब्ध मूल दस्तावेज़ को आधिकारिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सिफारिश की जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम जिम्मेदार नहीं हैं।