You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
ML-For-Beginners/translations/mr/8-Reinforcement/1-QLearning/assignment.md

41 lines
8.2 KiB

<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "68394b2102d3503882e5e914bd0ff5c1",
"translation_date": "2025-08-29T18:12:57+00:00",
"source_file": "8-Reinforcement/1-QLearning/assignment.md",
"language_code": "mr"
}
-->
# एक अधिक वास्तववादी जग
आपल्या परिस्थितीत, पीटर जवळजवळ थकवा किंवा भूक न लागता फिरू शकत होता. एका अधिक वास्तववादी जगात, त्याला वेळोवेळी बसून विश्रांती घ्यावी लागेल आणि स्वतःला खायला द्यावे लागेल. खालील नियम लागू करून आपण आपले जग अधिक वास्तववादी बनवूया:
1. एका ठिकाणाहून दुसऱ्या ठिकाणी हलताना, पीटरची **ऊर्जा** कमी होते आणि त्याला काही **थकवा** येतो.
2. सफरचंद खाल्ल्याने पीटरला अधिक ऊर्जा मिळते.
3. झाडाखाली किंवा गवतावर (म्हणजे झाड किंवा गवत असलेल्या बोर्डाच्या ठिकाणी चालून गेल्यावर - हिरवे क्षेत्र) विश्रांती घेतल्याने पीटरचा थकवा कमी होतो.
4. पीटरला लांडग्याला शोधून ठार मारावे लागेल.
5. लांडग्याला ठार मारण्यासाठी, पीटरकडे विशिष्ट पातळीची ऊर्जा आणि थकवा असणे आवश्यक आहे, अन्यथा तो लढाई हरतो.
## सूचना
तुमच्या समाधानासाठी मूळ [notebook.ipynb](notebook.ipynb) नोटबुकचा प्रारंभिक बिंदू म्हणून वापरा.
वरील नियमांनुसार बक्षीस फंक्शन (reward function) बदला, reinforcement learning अल्गोरिदम चालवा जेणेकरून खेळ जिंकण्यासाठी सर्वोत्तम रणनीती शिकता येईल, आणि तुमच्या अल्गोरिदमचे निकाल random walk च्या तुलनेत जिंकलेल्या आणि हरलेल्या खेळांच्या संख्येच्या दृष्टीने तुलना करा.
> **Note**: तुमच्या नवीन जगात, स्थिती अधिक जटिल आहे, आणि मानवी स्थानाशिवाय थकवा आणि ऊर्जा पातळी देखील समाविष्ट आहे. तुम्ही स्थितीचे प्रतिनिधित्व (Board, energy, fatigue) अशा ट्युपल स्वरूपात करू शकता, किंवा स्थितीसाठी एक वर्ग (class) परिभाषित करू शकता (तुम्ही तो `Board` पासूनही व्युत्पन्न करू शकता), किंवा मूळ `Board` वर्ग [rlboard.py](../../../../8-Reinforcement/1-QLearning/rlboard.py) मध्ये बदलू शकता.
तुमच्या समाधानात, कृपया random walk रणनीतीसाठी जबाबदार असलेला कोड ठेवा, आणि शेवटी तुमच्या अल्गोरिदमचे random walk सोबत निकालांची तुलना करा.
> **Note**: हे कार्य करण्यासाठी तुम्हाला हायपरपॅरामीटर्स समायोजित करावे लागू शकतात, विशेषतः epochs ची संख्या. कारण खेळाचा यशस्वी परिणाम (लांडग्याशी लढाई) दुर्मिळ घटना आहे, त्यामुळे तुम्हाला खूप जास्त प्रशिक्षण वेळ अपेक्षित आहे.
## मूल्यांकन निकष
| निकष | उत्कृष्ट | समाधानकारक | सुधारणा आवश्यक |
| ---------- | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------------ |
| | नवीन जगाच्या नियमांची व्याख्या, Q-Learning अल्गोरिदम आणि काही मजकूरात्मक स्पष्टीकरणांसह नोटबुक सादर केले आहे. Q-Learning random walk च्या तुलनेत निकाल लक्षणीयरीत्या सुधारतो. | नोटबुक सादर केले आहे, Q-Learning लागू केले आहे आणि random walk च्या तुलनेत निकाल सुधारतो, पण लक्षणीयरीत्या नाही; किंवा नोटबुक नीट दस्तऐवजीकरण केलेले नाही आणि कोड चांगल्या प्रकारे संरचित नाही. | जगाच्या नियमांची पुन्हा व्याख्या करण्याचा काही प्रयत्न केला आहे, पण Q-Learning अल्गोरिदम कार्य करत नाही, किंवा बक्षीस फंक्शन पूर्णपणे परिभाषित केलेले नाही. |
---
**अस्वीकरण**:
हा दस्तऐवज AI भाषांतर सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) चा वापर करून भाषांतरित करण्यात आला आहे. आम्ही अचूकतेसाठी प्रयत्नशील असलो तरी, कृपया लक्षात घ्या की स्वयंचलित भाषांतरांमध्ये त्रुटी किंवा अचूकतेचा अभाव असू शकतो. मूळ भाषेतील मूळ दस्तऐवज हा अधिकृत स्रोत मानला जावा. महत्त्वाच्या माहितीसाठी व्यावसायिक मानवी भाषांतराची शिफारस केली जाते. या भाषांतराचा वापर केल्यामुळे उद्भवणाऱ्या कोणत्याही गैरसमज किंवा चुकीच्या अर्थासाठी आम्ही जबाबदार राहणार नाही.