You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
67 lines
10 KiB
67 lines
10 KiB
<!--
|
|
CO_OP_TRANSLATOR_METADATA:
|
|
{
|
|
"original_hash": "20ca019012b1725de956681d036d8b18",
|
|
"translation_date": "2025-08-29T18:04:51+00:00",
|
|
"source_file": "8-Reinforcement/README.md",
|
|
"language_code": "mr"
|
|
}
|
|
-->
|
|
# reinforcement learning ची ओळख
|
|
|
|
reinforcement learning, RL, हे supervised learning आणि unsupervised learning यांच्यासोबत मशीन लर्निंगचे एक मूलभूत पॅराडाइम मानले जाते. RL म्हणजे निर्णय घेणे: योग्य निर्णय देणे किंवा त्यातून शिकणे.
|
|
|
|
कल्पना करा की तुमच्याकडे स्टॉक मार्केटसारखे एक सिम्युलेटेड वातावरण आहे. जर तुम्ही एखादा नियम लागू केला तर काय होईल? त्याचा सकारात्मक परिणाम होतो का किंवा नकारात्मक? जर काही नकारात्मक घडले, तर तुम्हाला त्या _नकारात्मक reinforcement_ वरून शिकून मार्ग बदलण्याची गरज आहे. जर सकारात्मक परिणाम झाला, तर तुम्हाला त्या _सकारात्मक reinforcement_ वर आधारित पुढे जायचे आहे.
|
|
|
|

|
|
|
|
> पीटर आणि त्याचे मित्र भुकेल्या लांडग्यापासून पळून जाण्याचा प्रयत्न करत आहेत! प्रतिमा [Jen Looper](https://twitter.com/jenlooper) यांच्याकडून
|
|
|
|
## प्रादेशिक विषय: पीटर आणि लांडगा (रशिया)
|
|
|
|
[पीटर आणि लांडगा](https://en.wikipedia.org/wiki/Peter_and_the_Wolf) हे रशियन संगीतकार [Sergei Prokofiev](https://en.wikipedia.org/wiki/Sergei_Prokofiev) यांनी लिहिलेले एक संगीत परीकथा आहे. ही कथा तरुण पायोनियर पीटरची आहे, जो धाडसाने आपल्या घरातून बाहेर पडून जंगलात लांडग्याचा पाठलाग करतो. या विभागात, आपण मशीन लर्निंग अल्गोरिदम्स प्रशिक्षित करू जे पीटरला मदत करतील:
|
|
|
|
- **आसपासचा परिसर शोधणे** आणि एक आदर्श नेव्हिगेशन नकाशा तयार करणे
|
|
- **स्केटबोर्ड वापरणे शिकणे** आणि त्यावर संतुलन राखणे, जेणेकरून तो वेगाने फिरू शकेल.
|
|
|
|
[](https://www.youtube.com/watch?v=Fmi5zHg4QSM)
|
|
|
|
> 🎥 वर दिलेल्या प्रतिमेवर क्लिक करा आणि Prokofiev यांचे पीटर आणि लांडगा ऐका
|
|
|
|
## reinforcement learning
|
|
|
|
मागील विभागांमध्ये, तुम्ही मशीन लर्निंग समस्यांचे दोन प्रकार पाहिले:
|
|
|
|
- **Supervised**, जिथे आपल्याकडे अशा डेटासेट्स असतात जे आपण सोडवू इच्छित समस्येचे नमुना समाधान सुचवतात. [Classification](../4-Classification/README.md) आणि [Regression](../2-Regression/README.md) हे supervised learning चे कार्य आहेत.
|
|
- **Unsupervised**, जिथे आपल्याकडे लेबल केलेले प्रशिक्षण डेटा नसतो. unsupervised learning चे मुख्य उदाहरण म्हणजे [Clustering](../5-Clustering/README.md).
|
|
|
|
या विभागात, आम्ही तुम्हाला एका नवीन प्रकारच्या लर्निंग समस्येशी परिचित करून देऊ ज्यासाठी लेबल केलेल्या प्रशिक्षण डेटाची आवश्यकता नसते. अशा समस्यांचे अनेक प्रकार आहेत:
|
|
|
|
- **[Semi-supervised learning](https://wikipedia.org/wiki/Semi-supervised_learning)**, जिथे आपल्याकडे मोठ्या प्रमाणात unlabeled डेटा असतो जो मॉडेल प्री-ट्रेन करण्यासाठी वापरला जाऊ शकतो.
|
|
- **[Reinforcement learning](https://wikipedia.org/wiki/Reinforcement_learning)**, जिथे एखादा agent काही सिम्युलेटेड वातावरणात प्रयोग करून कसे वागावे हे शिकतो.
|
|
|
|
### उदाहरण - संगणक खेळ
|
|
|
|
समजा तुम्हाला संगणकाला एखादा खेळ खेळायला शिकवायचे आहे, जसे की चेस किंवा [Super Mario](https://wikipedia.org/wiki/Super_Mario). संगणकाला खेळ खेळण्यासाठी, प्रत्येक गेम स्टेटमध्ये कोणते पाऊल उचलायचे हे त्याला अंदाज करावे लागेल. हे classification समस्येसारखे वाटू शकते, पण तसे नाही - कारण आपल्याकडे स्टेट्स आणि संबंधित कृतींसह डेटासेट नाही. जरी आपल्याकडे चेसच्या विद्यमान सामन्यांचा डेटा किंवा Super Mario खेळणाऱ्या खेळाडूंच्या रेकॉर्डिंगचा डेटा असला तरी, तो डेटा पुरेशा मोठ्या संख्येने संभाव्य स्टेट्स कव्हर करणार नाही.
|
|
|
|
विद्यमान गेम डेटाचा शोध घेण्याऐवजी, **Reinforcement Learning** (RL) ही कल्पना *संगणकाला अनेक वेळा खेळायला लावणे* आणि परिणामांचे निरीक्षण करणे यावर आधारित आहे. त्यामुळे, Reinforcement Learning लागू करण्यासाठी आपल्याला दोन गोष्टींची आवश्यकता आहे:
|
|
|
|
- **एक वातावरण** आणि **एक सिम्युलेटर** जे आपल्याला अनेक वेळा खेळ खेळण्याची परवानगी देईल. हा सिम्युलेटर सर्व गेम नियम तसेच संभाव्य स्टेट्स आणि कृती परिभाषित करेल.
|
|
|
|
- **एक reward function**, जे प्रत्येक पाऊल किंवा खेळादरम्यान आपण किती चांगले काम केले हे सांगेल.
|
|
|
|
इतर प्रकारच्या मशीन लर्निंग आणि RL मधील मुख्य फरक म्हणजे RL मध्ये आपल्याला खेळ संपेपर्यंत आपण जिंकतो की हरतो हे सहसा माहित नसते. त्यामुळे, एखादे विशिष्ट पाऊल चांगले आहे की नाही हे आपण सांगू शकत नाही - आपल्याला फक्त खेळाच्या शेवटी एक reward मिळते. आणि आपले उद्दिष्ट असे अल्गोरिदम्स डिझाइन करणे आहे जे अनिश्चित परिस्थितीत मॉडेल प्रशिक्षित करण्यास अनुमती देतील. आपण **Q-learning** नावाच्या एका RL अल्गोरिदमबद्दल शिकू.
|
|
|
|
## धडे
|
|
|
|
1. [reinforcement learning आणि Q-Learning ची ओळख](1-QLearning/README.md)
|
|
2. [gym simulation environment वापरणे](2-Gym/README.md)
|
|
|
|
## श्रेय
|
|
|
|
"Introduction to Reinforcement Learning" हे [Dmitry Soshnikov](http://soshnikov.com) यांनी ♥️ सह लिहिले आहे.
|
|
|
|
---
|
|
|
|
**अस्वीकरण**:
|
|
हा दस्तऐवज AI भाषांतर सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) चा वापर करून भाषांतरित करण्यात आला आहे. आम्ही अचूकतेसाठी प्रयत्नशील असलो तरी कृपया लक्षात ठेवा की स्वयंचलित भाषांतरे त्रुटी किंवा अचूकतेच्या अभावाने युक्त असू शकतात. मूळ भाषेतील दस्तऐवज हा अधिकृत स्रोत मानला जावा. महत्त्वाच्या माहितीसाठी व्यावसायिक मानवी भाषांतराची शिफारस केली जाते. या भाषांतराचा वापर करून उद्भवलेल्या कोणत्याही गैरसमज किंवा चुकीच्या अर्थासाठी आम्ही जबाबदार राहणार नाही. |