# ट्रेन माउंटन कार [OpenAI Gym](http://gym.openai.com) अशा प्रकारे डिझाइन केले गेले आहे की सर्व वातावरण समान API प्रदान करतात - म्हणजेच समान `reset`, `step` आणि `render` पद्धती, तसेच **क्रिया जागा** आणि **निरीक्षण जागा** यांची समान संकल्पना. त्यामुळे, समान बळकटीकरण शिकण्याचे अल्गोरिदम वेगवेगळ्या वातावरणांमध्ये किमान कोड बदलांसह अनुकूल करणे शक्य आहे. ## माउंटन कार वातावरण [माउंटन कार वातावरण](https://gym.openai.com/envs/MountainCar-v0/) मध्ये एक कार दरीत अडकलेली आहे: उद्दिष्ट दरीतून बाहेर पडणे आणि झेंडा मिळवणे आहे, ज्यासाठी प्रत्येक टप्प्यावर खालीलपैकी एक कृती करावी लागते: | मूल्य | अर्थ | |---|---| | 0 | डावीकडे गती वाढवा | | 1 | गती वाढवू नका | | 2 | उजवीकडे गती वाढवा | या समस्येतील मुख्य युक्ती म्हणजे, कारचे इंजिन एका प्रयत्नात डोंगर चढण्यासाठी पुरेसे शक्तिशाली नाही. त्यामुळे, यशस्वी होण्यासाठी एकमेव मार्ग म्हणजे गती मिळवण्यासाठी पुढे-मागे ड्राइव्ह करणे. निरीक्षण जागा फक्त दोन मूल्यांपासून बनलेली आहे: | क्रमांक | निरीक्षण | किमान | कमाल | |-----|--------------|-----|-----| | 0 | कारची स्थिती | -1.2| 0.6 | | 1 | कारचा वेग | -0.07 | 0.07 | माउंटन कारसाठी बक्षीस प्रणाली थोडी क्लिष्ट आहे: * जर एजंटने डोंगराच्या शिखरावर झेंडा (स्थिती = 0.5) गाठला, तर 0 बक्षीस दिले जाते. * जर एजंटची स्थिती 0.5 पेक्षा कमी असेल, तर -1 बक्षीस दिले जाते. एपिसोड संपतो जर कारची स्थिती 0.5 पेक्षा जास्त असेल, किंवा एपिसोडची लांबी 200 पेक्षा जास्त असेल. ## सूचना माउंटन कार समस्येचे निराकरण करण्यासाठी आमच्या बळकटीकरण शिकण्याच्या अल्गोरिदमला अनुकूल करा. विद्यमान [notebook.ipynb](notebook.ipynb) कोडपासून सुरुवात करा, नवीन वातावरण बदला, स्थितीचे विवेचन करणाऱ्या फंक्शन्स बदला, आणि विद्यमान अल्गोरिदमला किमान कोड बदलांसह प्रशिक्षण देण्याचा प्रयत्न करा. हायपरपॅरामीटर्स समायोजून निकाल ऑप्टिमाइझ करा. > **टीप**: अल्गोरिदमला एकत्रित करण्यासाठी हायपरपॅरामीटर्स समायोजन आवश्यक असू शकते. ## मूल्यांकन निकष | निकष | उत्कृष्ट | समाधानकारक | सुधारणा आवश्यक | | -------- | --------- | -------- | ----------------- | | | Q-Learning अल्गोरिदम यशस्वीरित्या CartPole उदाहरणातून किमान कोड बदलांसह अनुकूलित केला गेला आहे, जो 200 टप्प्यांखाली झेंडा मिळवण्याचे उद्दिष्ट साध्य करू शकतो. | इंटरनेटवरून नवीन Q-Learning अल्गोरिदम स्वीकारला गेला आहे, परंतु तो चांगल्या प्रकारे दस्तऐवजीकरण केलेला आहे; किंवा विद्यमान अल्गोरिदम स्वीकारला गेला आहे, परंतु अपेक्षित निकाल साध्य करत नाही. | विद्यार्थी कोणताही अल्गोरिदम यशस्वीरित्या स्वीकारू शकला नाही, परंतु समाधानाकडे महत्त्वपूर्ण पावले उचलली आहेत (स्थिती विवेचन, Q-टेबल डेटा संरचना इत्यादी अंमलात आणली आहे). | --- **अस्वीकरण**: हा दस्तऐवज AI भाषांतर सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) वापरून भाषांतरित करण्यात आला आहे. आम्ही अचूकतेसाठी प्रयत्नशील असलो तरी, कृपया लक्षात ठेवा की स्वयंचलित भाषांतरे त्रुटी किंवा अचूकतेच्या अभावाने ग्रस्त असू शकतात. मूळ भाषेतील दस्तऐवज हा अधिकृत स्रोत मानला जावा. महत्त्वाच्या माहितीसाठी, व्यावसायिक मानवी भाषांतराची शिफारस केली जाते. या भाषांतराचा वापर करून उद्भवलेल्या कोणत्याही गैरसमज किंवा चुकीच्या अर्थासाठी आम्ही जबाबदार राहणार नाही.