<!--
CO_OP_TRANSLATOR_METADATA:
{
  "original_hash": "20ca019012b1725de956681d036d8b18",
  "translation_date": "2025-09-04T00:14:45+00:00",
  "source_file": "8-Reinforcement/README.md",
  "language_code": "hi"
}
-->
# परिचय: रिइनफोर्समेंट लर्निंग

रिइनफोर्समेंट लर्निंग (RL) को मशीन लर्निंग के तीन मुख्य दृष्टिकोणों में से एक माना जाता है, अन्य दो हैं सुपरवाइज्ड लर्निंग और अनसुपरवाइज्ड लर्निंग। RL निर्णय लेने पर आधारित है: सही निर्णय लेना या कम से कम उनसे सीखना।

कल्पना करें कि आपके पास एक सिम्युलेटेड वातावरण है, जैसे कि शेयर बाजार। यदि आप कोई विशेष नियम लागू करते हैं, तो क्या इसका सकारात्मक या नकारात्मक प्रभाव पड़ता है? यदि कुछ नकारात्मक होता है, तो आपको इस _नकारात्मक रिइनफोर्समेंट_ से सीखना होगा और अपनी दिशा बदलनी होगी। यदि परिणाम सकारात्मक है, तो आपको उस _सकारात्मक रिइनफोर्समेंट_ पर आगे बढ़ना होगा।

![पीटर और भेड़िया](../../../translated_images/peter.779730f9ba3a8a8d9290600dcf55f2e491c0640c785af7ac0d64f583c49b8864.hi.png)

> पीटर और उसके दोस्त भूखे भेड़िये से बचने की कोशिश कर रहे हैं! छवि: [जेन लूपर](https://twitter.com/jenlooper)

## क्षेत्रीय विषय: पीटर और भेड़िया (रूस)

[पीटर और भेड़िया](https://en.wikipedia.org/wiki/Peter_and_the_Wolf) एक संगीत परीकथा है जिसे रूसी संगीतकार [सर्गेई प्रोकोफिएव](https://en.wikipedia.org/wiki/Sergei_Prokofiev) ने लिखा था। यह कहानी युवा पायनियर पीटर की है, जो बहादुरी से अपने घर से बाहर निकलकर जंगल में भेड़िये का पीछा करता है। इस खंड में, हम मशीन लर्निंग एल्गोरिदम को प्रशिक्षित करेंगे जो पीटर की मदद करेंगे:

- **आसपास के क्षेत्र का पता लगाएं** और एक आदर्श नेविगेशन मानचित्र बनाएं।
- **स्केटबोर्ड का उपयोग करना और उस पर संतुलन बनाना सीखें**, ताकि वह तेजी से घूम सके।

[![पीटर और भेड़िया](https://img.youtube.com/vi/Fmi5zHg4QSM/0.jpg)](https://www.youtube.com/watch?v=Fmi5zHg4QSM)

> 🎥 ऊपर दी गई छवि पर क्लिक करें और प्रोकोफिएव द्वारा "पीटर और भेड़िया" सुनें।

## रिइनफोर्समेंट लर्निंग

पिछले खंडों में, आपने मशीन लर्निंग समस्याओं के दो उदाहरण देखे:

- **सुपरवाइज्ड**, जहां हमारे पास डेटा सेट होते हैं जो उस समस्या के संभावित समाधान सुझाते हैं जिसे हम हल करना चाहते हैं। [क्लासिफिकेशन](../4-Classification/README.md) और [रेग्रेशन](../2-Regression/README.md) सुपरवाइज्ड लर्निंग कार्य हैं।
- **अनसुपरवाइज्ड**, जिसमें हमारे पास लेबल वाले प्रशिक्षण डेटा नहीं होते। अनसुपरवाइज्ड लर्निंग का मुख्य उदाहरण [क्लस्टरिंग](../5-Clustering/README.md) है।

इस खंड में, हम आपको एक नए प्रकार की लर्निंग समस्या से परिचित कराएंगे, जिसमें लेबल वाले प्रशिक्षण डेटा की आवश्यकता नहीं होती। ऐसी समस्याओं के कई प्रकार होते हैं:

- **[सेमी-सुपरवाइज्ड लर्निंग](https://wikipedia.org/wiki/Semi-supervised_learning)**, जहां हमारे पास बहुत सारा अनलेबल्ड डेटा होता है जिसे मॉडल को प्री-ट्रेन करने के लिए उपयोग किया जा सकता है।
- **[रिइनफोर्समेंट लर्निंग](https://wikipedia.org/wiki/Reinforcement_learning)**, जिसमें एक एजेंट सिम्युलेटेड वातावरण में प्रयोग करके व्यवहार करना सीखता है।

### उदाहरण - कंप्यूटर गेम

मान लीजिए आप कंप्यूटर को कोई गेम खेलना सिखाना चाहते हैं, जैसे कि शतरंज या [सुपर मारियो](https://wikipedia.org/wiki/Super_Mario)। कंप्यूटर को गेम खेलने के लिए, हमें यह सिखाना होगा कि गेम के प्रत्येक स्थिति में कौन सा कदम उठाना है। हालांकि यह एक क्लासिफिकेशन समस्या जैसा लग सकता है, लेकिन ऐसा नहीं है - क्योंकि हमारे पास गेम की स्थितियों और उनके संबंधित क्रियाओं का डेटा सेट नहीं है। हालांकि हमारे पास कुछ डेटा हो सकता है, जैसे कि मौजूदा शतरंज मैच या सुपर मारियो खेलने वाले खिलाड़ियों की रिकॉर्डिंग, लेकिन यह डेटा संभवतः पर्याप्त संख्या में संभावित स्थितियों को कवर नहीं करेगा।

मौजूदा गेम डेटा की तलाश करने के बजाय, **रिइनफोर्समेंट लर्निंग** (RL) इस विचार पर आधारित है कि *कंप्यूटर को बार-बार गेम खेलने दें* और परिणामों का अवलोकन करें। इसलिए, रिइनफोर्समेंट लर्निंग लागू करने के लिए हमें दो चीजों की आवश्यकता होती है:

- **एक वातावरण** और **एक सिम्युलेटर**, जो हमें बार-बार गेम खेलने की अनुमति देता है। यह सिम्युलेटर सभी गेम नियमों, संभावित स्थितियों और क्रियाओं को परिभाषित करेगा।

- **एक रिवॉर्ड फंक्शन**, जो हमें प्रत्येक कदम या गेम के दौरान हमारे प्रदर्शन के बारे में बताएगा।

अन्य प्रकार की मशीन लर्निंग और RL के बीच मुख्य अंतर यह है कि RL में हमें आमतौर पर यह नहीं पता होता कि हम जीतेंगे या हारेंगे जब तक कि गेम समाप्त न हो जाए। इसलिए, हम यह नहीं कह सकते कि कोई विशेष कदम अकेले अच्छा है या नहीं - हमें केवल गेम के अंत में रिवॉर्ड मिलता है। और हमारा लक्ष्य ऐसे एल्गोरिदम डिज़ाइन करना है जो हमें अनिश्चित परिस्थितियों में मॉडल को प्रशिक्षित करने की अनुमति दें। हम एक RL एल्गोरिदम के बारे में सीखेंगे जिसे **Q-लर्निंग** कहा जाता है।

## पाठ

1. [रिइनफोर्समेंट लर्निंग और Q-लर्निंग का परिचय](1-QLearning/README.md)
2. [जिम सिम्युलेशन वातावरण का उपयोग करना](2-Gym/README.md)

## क्रेडिट्स

"रिइनफोर्समेंट लर्निंग का परिचय" को ♥️ के साथ [दिमित्री सॉश्निकोव](http://soshnikov.com) द्वारा लिखा गया है।

---

**अस्वीकरण**:  
यह दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) का उपयोग करके अनुवादित किया गया है। जबकि हम सटीकता सुनिश्चित करने का प्रयास करते हैं, कृपया ध्यान दें कि स्वचालित अनुवाद में त्रुटियां या अशुद्धियां हो सकती हैं। मूल भाषा में उपलब्ध मूल दस्तावेज़ को प्रामाणिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सिफारिश की जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम उत्तरदायी नहीं हैं।