<!--
CO_OP_TRANSLATOR_METADATA:
{
  "original_hash": "68394b2102d3503882e5e914bd0ff5c1",
  "translation_date": "2025-09-04T00:24:59+00:00",
  "source_file": "8-Reinforcement/1-QLearning/assignment.md",
  "language_code": "hi"
}
-->
# एक अधिक यथार्थवादी दुनिया

हमारी स्थिति में, पीटर लगभग बिना थके या भूखे हुए घूमने में सक्षम था। एक अधिक यथार्थवादी दुनिया में, उसे समय-समय पर बैठकर आराम करना होगा और खुद को भोजन देना होगा। चलिए हमारी दुनिया को अधिक यथार्थवादी बनाते हैं, निम्नलिखित नियम लागू करके:

1. एक स्थान से दूसरे स्थान पर जाने से, पीटर **ऊर्जा** खोता है और कुछ **थकान** प्राप्त करता है।
2. पीटर सेब खाकर अधिक ऊर्जा प्राप्त कर सकता है।
3. पीटर पेड़ के नीचे या घास पर आराम करके थकान से छुटकारा पा सकता है (यानी बोर्ड के उस स्थान पर चलकर जहां पेड़ या घास हो - हरा क्षेत्र)।
4. पीटर को भेड़िये को ढूंढकर मारना होगा।
5. भेड़िये को मारने के लिए, पीटर के पास निश्चित स्तर की ऊर्जा और थकान होनी चाहिए, अन्यथा वह लड़ाई हार जाएगा।

## निर्देश

अपने समाधान के लिए मूल [notebook.ipynb](notebook.ipynb) नोटबुक का उपयोग प्रारंभिक बिंदु के रूप में करें।

ऊपर दिए गए खेल के नियमों के अनुसार पुरस्कार फ़ंक्शन को संशोधित करें, सुदृढीकरण सीखने का एल्गोरिदम चलाएं ताकि खेल जीतने की सबसे अच्छी रणनीति सीखी जा सके, और यादृच्छिक चाल के परिणामों की तुलना अपने एल्गोरिदम के साथ करें, खेल जीते और हारे जाने की संख्या के संदर्भ में।

> **Note**: आपकी नई दुनिया में, स्थिति अधिक जटिल है, और इसमें मानव की स्थिति के अलावा थकान और ऊर्जा स्तर भी शामिल हैं। आप स्थिति को एक टपल (Board,energy,fatigue) के रूप में प्रस्तुत करना चुन सकते हैं, या स्थिति के लिए एक क्लास परिभाषित कर सकते हैं (आप इसे `Board` से भी प्राप्त कर सकते हैं), या यहां तक कि मूल `Board` क्लास को [rlboard.py](../../../../8-Reinforcement/1-QLearning/rlboard.py) के अंदर संशोधित कर सकते हैं।

अपने समाधान में, कृपया यादृच्छिक चाल रणनीति के लिए जिम्मेदार कोड बनाए रखें, और अंत में अपने एल्गोरिदम के परिणामों की तुलना यादृच्छिक चाल के साथ करें।

> **Note**: इसे काम करने के लिए आपको हाइपरपैरामीटर को समायोजित करने की आवश्यकता हो सकती है, विशेष रूप से epochs की संख्या। क्योंकि खेल की सफलता (भेड़िये से लड़ाई) एक दुर्लभ घटना है, आप अपेक्षा कर सकते हैं कि प्रशिक्षण समय अधिक लंबा होगा।

## मूल्यांकन मानदंड

| मानदंड | उत्कृष्ट                                                                                                                                                                                             | पर्याप्त                                                                                                                                                                                | सुधार की आवश्यकता                                                                                                                          |
| -------- | ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------------ |
|          | एक नोटबुक प्रस्तुत की गई है जिसमें नई दुनिया के नियमों की परिभाषा, Q-Learning एल्गोरिदम और कुछ पाठ्य स्पष्टीकरण शामिल हैं। Q-Learning यादृच्छिक चाल की तुलना में परिणामों को महत्वपूर्ण रूप से सुधारने में सक्षम है। | नोटबुक प्रस्तुत की गई है, Q-Learning लागू किया गया है और यादृच्छिक चाल की तुलना में परिणामों में सुधार करता है, लेकिन महत्वपूर्ण रूप से नहीं; या नोटबुक खराब तरीके से प्रलेखित है और कोड अच्छी तरह से संरचित नहीं है। | दुनिया के नियमों को फिर से परिभाषित करने का कुछ प्रयास किया गया है, लेकिन Q-Learning एल्गोरिदम काम नहीं करता है, या पुरस्कार फ़ंक्शन पूरी तरह से परिभाषित नहीं है। |

---

**अस्वीकरण**:  
यह दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) का उपयोग करके अनुवादित किया गया है। जबकि हम सटीकता सुनिश्चित करने का प्रयास करते हैं, कृपया ध्यान दें कि स्वचालित अनुवाद में त्रुटियां या अशुद्धियां हो सकती हैं। मूल भाषा में उपलब्ध मूल दस्तावेज़ को आधिकारिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सिफारिश की जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम जिम्मेदार नहीं हैं।