ML-For-Beginners/translations/mr/8-Reinforcement/1-QLearning/assignment.md

<!--
CO_OP_TRANSLATOR_METADATA:
{
  "original_hash": "68394b2102d3503882e5e914bd0ff5c1",
  "translation_date": "2025-08-29T18:12:57+00:00",
  "source_file": "8-Reinforcement/1-QLearning/assignment.md",
  "language_code": "mr"
}
-->
# एक अधिक वास्तववादी जग

आपल्या परिस्थितीत, पीटर जवळजवळ थकवा किंवा भूक न लागता फिरू शकत होता. एका अधिक वास्तववादी जगात, त्याला वेळोवेळी बसून विश्रांती घ्यावी लागेल आणि स्वतःला खायला द्यावे लागेल. खालील नियम लागू करून आपण आपले जग अधिक वास्तववादी बनवूया:

1. एका ठिकाणाहून दुसऱ्या ठिकाणी हलताना, पीटरची **ऊर्जा** कमी होते आणि त्याला काही **थकवा** येतो.
2. सफरचंद खाल्ल्याने पीटरला अधिक ऊर्जा मिळते.
3. झाडाखाली किंवा गवतावर (म्हणजे झाड किंवा गवत असलेल्या बोर्डाच्या ठिकाणी चालून गेल्यावर - हिरवे क्षेत्र) विश्रांती घेतल्याने पीटरचा थकवा कमी होतो.
4. पीटरला लांडग्याला शोधून ठार मारावे लागेल.
5. लांडग्याला ठार मारण्यासाठी, पीटरकडे विशिष्ट पातळीची ऊर्जा आणि थकवा असणे आवश्यक आहे, अन्यथा तो लढाई हरतो.

## सूचना

तुमच्या समाधानासाठी मूळ [notebook.ipynb](notebook.ipynb) नोटबुकचा प्रारंभिक बिंदू म्हणून वापरा.

वरील नियमांनुसार बक्षीस फंक्शन (reward function) बदला, reinforcement learning अल्गोरिदम चालवा जेणेकरून खेळ जिंकण्यासाठी सर्वोत्तम रणनीती शिकता येईल, आणि तुमच्या अल्गोरिदमचे निकाल random walk च्या तुलनेत जिंकलेल्या आणि हरलेल्या खेळांच्या संख्येच्या दृष्टीने तुलना करा.

> **Note**: तुमच्या नवीन जगात, स्थिती अधिक जटिल आहे, आणि मानवी स्थानाशिवाय थकवा आणि ऊर्जा पातळी देखील समाविष्ट आहे. तुम्ही स्थितीचे प्रतिनिधित्व (Board, energy, fatigue) अशा ट्युपल स्वरूपात करू शकता, किंवा स्थितीसाठी एक वर्ग (class) परिभाषित करू शकता (तुम्ही तो `Board` पासूनही व्युत्पन्न करू शकता), किंवा मूळ `Board` वर्ग [rlboard.py](../../../../8-Reinforcement/1-QLearning/rlboard.py) मध्ये बदलू शकता.

तुमच्या समाधानात, कृपया random walk रणनीतीसाठी जबाबदार असलेला कोड ठेवा, आणि शेवटी तुमच्या अल्गोरिदमचे random walk सोबत निकालांची तुलना करा.

> **Note**: हे कार्य करण्यासाठी तुम्हाला हायपरपॅरामीटर्स समायोजित करावे लागू शकतात, विशेषतः epochs ची संख्या. कारण खेळाचा यशस्वी परिणाम (लांडग्याशी लढाई) दुर्मिळ घटना आहे, त्यामुळे तुम्हाला खूप जास्त प्रशिक्षण वेळ अपेक्षित आहे.

## मूल्यांकन निकष

| निकष      | उत्कृष्ट                                                                                                                                                                                                 | समाधानकारक                                                                                                                                                                              | सुधारणा आवश्यक                                                                                                                              |
| ---------- | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------------ |
|            | नवीन जगाच्या नियमांची व्याख्या, Q-Learning अल्गोरिदम आणि काही मजकूरात्मक स्पष्टीकरणांसह नोटबुक सादर केले आहे. Q-Learning random walk च्या तुलनेत निकाल लक्षणीयरीत्या सुधारतो.                        | नोटबुक सादर केले आहे, Q-Learning लागू केले आहे आणि random walk च्या तुलनेत निकाल सुधारतो, पण लक्षणीयरीत्या नाही; किंवा नोटबुक नीट दस्तऐवजीकरण केलेले नाही आणि कोड चांगल्या प्रकारे संरचित नाही. | जगाच्या नियमांची पुन्हा व्याख्या करण्याचा काही प्रयत्न केला आहे, पण Q-Learning अल्गोरिदम कार्य करत नाही, किंवा बक्षीस फंक्शन पूर्णपणे परिभाषित केलेले नाही. |

---

**अस्वीकरण**:
हा दस्तऐवज AI भाषांतर सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) चा वापर करून भाषांतरित करण्यात आला आहे. आम्ही अचूकतेसाठी प्रयत्नशील असलो तरी, कृपया लक्षात घ्या की स्वयंचलित भाषांतरांमध्ये त्रुटी किंवा अचूकतेचा अभाव असू शकतो. मूळ भाषेतील मूळ दस्तऐवज हा अधिकृत स्रोत मानला जावा. महत्त्वाच्या माहितीसाठी व्यावसायिक मानवी भाषांतराची शिफारस केली जाते. या भाषांतराचा वापर केल्यामुळे उद्भवणाऱ्या कोणत्याही गैरसमज किंवा चुकीच्या अर्थासाठी आम्ही जबाबदार राहणार नाही.