# परिचय: सुदृढीकरण शिक्षण

सुदृढीकरण शिक्षण, RL, को पर्यवेक्षित शिक्षण और अप्रशिक्षित शिक्षण के साथ एक बुनियादी मशीन लर्निंग प्रतिमान के रूप में देखा जाता है। RL निर्णयों के बारे में है: सही निर्णय देना या कम से कम उनसे सीखना।

कल्पना कीजिए कि आपके पास एक सिम्युलेटेड वातावरण है जैसे कि शेयर बाजार। अगर आप एक विशेष नियम लागू करते हैं तो क्या होता है? क्या इसका सकारात्मक या नकारात्मक प्रभाव होता है? यदि कुछ नकारात्मक होता है, तो आपको इस _नकारात्मक सुदृढीकरण_ को लेना होगा, उससे सीखना होगा, और दिशा बदलनी होगी। यदि यह एक सकारात्मक परिणाम है, तो आपको उस _सकारात्मक सुदृढीकरण_ पर निर्माण करना होगा।

![peter and the wolf](../../../translated_images/peter.779730f9ba3a8a8d9290600dcf55f2e491c0640c785af7ac0d64f583c49b8864.hi.png)

> पीटर और उसके दोस्तों को भूखे भेड़िये से बचना है! चित्र [Jen Looper](https://twitter.com/jenlooper) द्वारा

## क्षेत्रीय विषय: पीटर और भेड़िया (रूस)

[पीटर और भेड़िया](https://en.wikipedia.org/wiki/Peter_and_the_Wolf) एक संगीत परी कथा है जिसे रूसी संगीतकार [सर्गेई प्रोकोफिएव](https://en.wikipedia.org/wiki/Sergei_Prokofiev) ने लिखा है। यह एक युवा अग्रणी पीटर की कहानी है, जो बहादुरी से अपने घर से बाहर जंगल की साफ़ जगह पर भेड़िये का पीछा करने के लिए जाता है। इस अनुभाग में, हम मशीन लर्निंग एल्गोरिदम को प्रशिक्षित करेंगे जो पीटर की मदद करेंगे:

- **आसपास के क्षेत्र का अन्वेषण करें** और एक इष्टतम नेविगेशन मानचित्र बनाएं
- **सीखें** कि स्केटबोर्ड का उपयोग कैसे करें और उस पर संतुलन बनाए रखें, ताकि तेजी से घूम सकें।

[![Peter and the Wolf](https://img.youtube.com/vi/Fmi5zHg4QSM/0.jpg)](https://www.youtube.com/watch?v=Fmi5zHg4QSM)

> 🎥 प्रोकोफिएव द्वारा पीटर और भेड़िया सुनने के लिए ऊपर की छवि पर क्लिक करें

## सुदृढीकरण शिक्षण

पिछले अनुभागों में, आपने मशीन लर्निंग समस्याओं के दो उदाहरण देखे हैं:

- **पर्यवेक्षित**, जहाँ हमारे पास डेटा सेट होते हैं जो उस समस्या का समाधान सुझाते हैं जिसे हम हल करना चाहते हैं। [वर्गीकरण](../4-Classification/README.md) और [प्रतिगमन](../2-Regression/README.md) पर्यवेक्षित शिक्षण कार्य हैं।
- **अप्रशिक्षित**, जिसमें हमारे पास लेबल किया हुआ प्रशिक्षण डेटा नहीं होता है। अप्रशिक्षित शिक्षण का मुख्य उदाहरण [क्लस्टरिंग](../5-Clustering/README.md) है।

इस अनुभाग में, हम आपको एक नए प्रकार की शिक्षण समस्या से परिचित कराएंगे जिसके लिए लेबल किया हुआ प्रशिक्षण डेटा आवश्यक नहीं है। ऐसे कई प्रकार की समस्याएं हैं:

- **[अर्ध-पर्यवेक्षित शिक्षण](https://wikipedia.org/wiki/Semi-supervised_learning)**, जिसमें हमारे पास बहुत सारा बिना लेबल का डेटा होता है जिसका उपयोग मॉडल को पूर्व-प्रशिक्षित करने के लिए किया जा सकता है।
- **[सुदृढीकरण शिक्षण](https://wikipedia.org/wiki/Reinforcement_learning)**, जिसमें एक एजेंट कुछ सिम्युलेटेड वातावरण में प्रयोग करके व्यवहार करना सीखता है।

### उदाहरण - कंप्यूटर गेम

मान लीजिए आप कंप्यूटर को कोई गेम खेलना सिखाना चाहते हैं, जैसे शतरंज, या [सुपर मारियो](https://wikipedia.org/wiki/Super_Mario)। कंप्यूटर को गेम खेलने के लिए, हमें उसे यह अनुमान लगाना होगा कि प्रत्येक गेम स्थिति में कौन सा कदम उठाना है। जबकि यह एक वर्गीकरण समस्या की तरह लग सकता है, ऐसा नहीं है - क्योंकि हमारे पास स्थिति और संबंधित क्रियाओं के साथ एक डेटा सेट नहीं है। हमारे पास कुछ डेटा हो सकता है जैसे मौजूदा शतरंज मैच या खिलाड़ी सुपर मारियो खेलते हुए, लेकिन संभावना है कि वह डेटा पर्याप्त रूप से बड़ी संख्या में संभावित स्थितियों को कवर नहीं करेगा।

मौजूदा गेम डेटा की तलाश करने के बजाय, **सुदृढीकरण शिक्षण** (RL) *कंप्यूटर को कई बार खेल खेलने और परिणाम का अवलोकन करने* के विचार पर आधारित है। इस प्रकार, सुदृढीकरण शिक्षण को लागू करने के लिए, हमें दो चीजों की आवश्यकता होती है:

- **एक वातावरण** और **एक सिम्युलेटर** जो हमें कई बार गेम खेलने की अनुमति देता है। यह सिम्युलेटर सभी गेम नियमों के साथ-साथ संभावित स्थितियों और क्रियाओं को परिभाषित करेगा।

- **एक पुरस्कार फ़ंक्शन**, जो हमें यह बताएगा कि प्रत्येक चाल या गेम के दौरान हमने कितना अच्छा किया।

अन्य प्रकार की मशीन लर्निंग और RL के बीच मुख्य अंतर यह है कि RL में हम आमतौर पर यह नहीं जानते कि हम जीतेंगे या हारेंगे जब तक कि हम गेम समाप्त नहीं करते। इस प्रकार, हम यह नहीं कह सकते कि एक निश्चित चाल अकेले अच्छी है या नहीं - हमें केवल गेम के अंत में एक पुरस्कार प्राप्त होता है। और हमारा लक्ष्य ऐसे एल्गोरिदम डिजाइन करना है जो हमें अनिश्चित परिस्थितियों में एक मॉडल को प्रशिक्षित करने की अनुमति देंगे। हम एक RL एल्गोरिदम के बारे में जानेंगे जिसे **Q-लर्निंग** कहा जाता है।

## पाठ

1. [सुदृढीकरण शिक्षण और Q-लर्निंग का परिचय](1-QLearning/README.md)
2. [जिम सिम्युलेशन वातावरण का उपयोग करना](2-Gym/README.md)

## श्रेय

"सुदृढीकरण शिक्षण का परिचय" ♥️ के साथ [Dmitry Soshnikov](http://soshnikov.com) द्वारा लिखा गया था

**अस्वीकरण**:
यह दस्तावेज़ मशीन-आधारित एआई अनुवाद सेवाओं का उपयोग करके अनुवादित किया गया है। जबकि हम सटीकता के लिए प्रयास करते हैं, कृपया ध्यान दें कि स्वचालित अनुवाद में त्रुटियाँ या अशुद्धियाँ हो सकती हैं। मूल भाषा में मूल दस्तावेज़ को आधिकारिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सिफारिश की जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम उत्तरदायी नहीं हैं।