You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
ML-For-Beginners/translations/mr/8-Reinforcement/2-Gym/assignment.md

7.0 KiB

ट्रेन माउंटन कार

OpenAI Gym अशा प्रकारे डिझाइन केले गेले आहे की सर्व वातावरण समान API प्रदान करतात - म्हणजेच समान reset, step आणि render पद्धती, तसेच क्रिया जागा आणि निरीक्षण जागा यांची समान संकल्पना. त्यामुळे, समान बळकटीकरण शिकण्याचे अल्गोरिदम वेगवेगळ्या वातावरणांमध्ये किमान कोड बदलांसह अनुकूल करणे शक्य आहे.

माउंटन कार वातावरण

माउंटन कार वातावरण मध्ये एक कार दरीत अडकलेली आहे:

उद्दिष्ट दरीतून बाहेर पडणे आणि झेंडा मिळवणे आहे, ज्यासाठी प्रत्येक टप्प्यावर खालीलपैकी एक कृती करावी लागते:

मूल्य अर्थ
0 डावीकडे गती वाढवा
1 गती वाढवू नका
2 उजवीकडे गती वाढवा

या समस्येतील मुख्य युक्ती म्हणजे, कारचे इंजिन एका प्रयत्नात डोंगर चढण्यासाठी पुरेसे शक्तिशाली नाही. त्यामुळे, यशस्वी होण्यासाठी एकमेव मार्ग म्हणजे गती मिळवण्यासाठी पुढे-मागे ड्राइव्ह करणे.

निरीक्षण जागा फक्त दोन मूल्यांपासून बनलेली आहे:

क्रमांक निरीक्षण किमान कमाल
0 कारची स्थिती -1.2 0.6
1 कारचा वेग -0.07 0.07

माउंटन कारसाठी बक्षीस प्रणाली थोडी क्लिष्ट आहे:

  • जर एजंटने डोंगराच्या शिखरावर झेंडा (स्थिती = 0.5) गाठला, तर 0 बक्षीस दिले जाते.
  • जर एजंटची स्थिती 0.5 पेक्षा कमी असेल, तर -1 बक्षीस दिले जाते.

एपिसोड संपतो जर कारची स्थिती 0.5 पेक्षा जास्त असेल, किंवा एपिसोडची लांबी 200 पेक्षा जास्त असेल.

सूचना

माउंटन कार समस्येचे निराकरण करण्यासाठी आमच्या बळकटीकरण शिकण्याच्या अल्गोरिदमला अनुकूल करा. विद्यमान notebook.ipynb कोडपासून सुरुवात करा, नवीन वातावरण बदला, स्थितीचे विवेचन करणाऱ्या फंक्शन्स बदला, आणि विद्यमान अल्गोरिदमला किमान कोड बदलांसह प्रशिक्षण देण्याचा प्रयत्न करा. हायपरपॅरामीटर्स समायोजून निकाल ऑप्टिमाइझ करा.

टीप: अल्गोरिदमला एकत्रित करण्यासाठी हायपरपॅरामीटर्स समायोजन आवश्यक असू शकते.

मूल्यांकन निकष

निकष उत्कृष्ट समाधानकारक सुधारणा आवश्यक
Q-Learning अल्गोरिदम यशस्वीरित्या CartPole उदाहरणातून किमान कोड बदलांसह अनुकूलित केला गेला आहे, जो 200 टप्प्यांखाली झेंडा मिळवण्याचे उद्दिष्ट साध्य करू शकतो. इंटरनेटवरून नवीन Q-Learning अल्गोरिदम स्वीकारला गेला आहे, परंतु तो चांगल्या प्रकारे दस्तऐवजीकरण केलेला आहे; किंवा विद्यमान अल्गोरिदम स्वीकारला गेला आहे, परंतु अपेक्षित निकाल साध्य करत नाही. विद्यार्थी कोणताही अल्गोरिदम यशस्वीरित्या स्वीकारू शकला नाही, परंतु समाधानाकडे महत्त्वपूर्ण पावले उचलली आहेत (स्थिती विवेचन, Q-टेबल डेटा संरचना इत्यादी अंमलात आणली आहे).

अस्वीकरण:
हा दस्तऐवज AI भाषांतर सेवा Co-op Translator वापरून भाषांतरित करण्यात आला आहे. आम्ही अचूकतेसाठी प्रयत्नशील असलो तरी, कृपया लक्षात ठेवा की स्वयंचलित भाषांतरे त्रुटी किंवा अचूकतेच्या अभावाने ग्रस्त असू शकतात. मूळ भाषेतील दस्तऐवज हा अधिकृत स्रोत मानला जावा. महत्त्वाच्या माहितीसाठी, व्यावसायिक मानवी भाषांतराची शिफारस केली जाते. या भाषांतराचा वापर करून उद्भवलेल्या कोणत्याही गैरसमज किंवा चुकीच्या अर्थासाठी आम्ही जबाबदार राहणार नाही.