History

localizeflow[bot] 2907ea6225 chore(i18n): sync translations with latest source changes (chunk 1/1, 300 changes)		4 months ago
..
1-QLearning	chore(i18n): sync translations with latest source changes (chunk 1/1, 300 changes)	4 months ago
2-Gym	chore(i18n): sync translations with latest source changes (chunk 1/1, 300 changes)	4 months ago
README.md	chore(i18n): sync translations with latest source changes (chunk 1/1, 300 changes)	4 months ago

README.md

परिचय: रिइनफोर्समेंट लर्निंग

रिइनफोर्समेंट लर्निंग (RL) को मशीन लर्निंग के तीन मुख्य दृष्टिकोणों में से एक माना जाता है, अन्य दो हैं सुपरवाइज्ड लर्निंग और अनसुपरवाइज्ड लर्निंग। RL निर्णय लेने पर आधारित है: सही निर्णय लेना या कम से कम उनसे सीखना।

कल्पना करें कि आपके पास एक सिम्युलेटेड वातावरण है, जैसे कि शेयर बाजार। यदि आप कोई विशेष नियम लागू करते हैं, तो क्या इसका सकारात्मक या नकारात्मक प्रभाव पड़ता है? यदि कुछ नकारात्मक होता है, तो आपको इस नकारात्मक रिइनफोर्समेंट से सीखना होगा और अपनी दिशा बदलनी होगी। यदि परिणाम सकारात्मक है, तो आपको उस सकारात्मक रिइनफोर्समेंट पर आगे बढ़ना होगा।

पीटर और उसके दोस्त भूखे भेड़िये से बचने की कोशिश कर रहे हैं! छवि: जेन लूपर

क्षेत्रीय विषय: पीटर और भेड़िया (रूस)

पीटर और भेड़िया एक संगीत परीकथा है जिसे रूसी संगीतकार सर्गेई प्रोकोफिएव ने लिखा था। यह कहानी युवा पायनियर पीटर की है, जो बहादुरी से अपने घर से बाहर निकलकर जंगल में भेड़िये का पीछा करता है। इस खंड में, हम मशीन लर्निंग एल्गोरिदम को प्रशिक्षित करेंगे जो पीटर की मदद करेंगे:

आसपास के क्षेत्र का पता लगाएं और एक आदर्श नेविगेशन मानचित्र बनाएं।
स्केटबोर्ड का उपयोग करना और उस पर संतुलन बनाना सीखें, ताकि वह तेजी से घूम सके।

🎥 ऊपर दी गई छवि पर क्लिक करें और प्रोकोफिएव द्वारा "पीटर और भेड़िया" सुनें।

रिइनफोर्समेंट लर्निंग

पिछले खंडों में, आपने मशीन लर्निंग समस्याओं के दो उदाहरण देखे:

सुपरवाइज्ड, जहां हमारे पास डेटा सेट होते हैं जो उस समस्या के संभावित समाधान सुझाते हैं जिसे हम हल करना चाहते हैं। क्लासिफिकेशन और रेग्रेशन सुपरवाइज्ड लर्निंग कार्य हैं।
अनसुपरवाइज्ड, जिसमें हमारे पास लेबल वाले प्रशिक्षण डेटा नहीं होते। अनसुपरवाइज्ड लर्निंग का मुख्य उदाहरण क्लस्टरिंग है।

इस खंड में, हम आपको एक नए प्रकार की लर्निंग समस्या से परिचित कराएंगे, जिसमें लेबल वाले प्रशिक्षण डेटा की आवश्यकता नहीं होती। ऐसी समस्याओं के कई प्रकार होते हैं:

सेमी-सुपरवाइज्ड लर्निंग, जहां हमारे पास बहुत सारा अनलेबल्ड डेटा होता है जिसे मॉडल को प्री-ट्रेन करने के लिए उपयोग किया जा सकता है।
रिइनफोर्समेंट लर्निंग, जिसमें एक एजेंट सिम्युलेटेड वातावरण में प्रयोग करके व्यवहार करना सीखता है।

उदाहरण - कंप्यूटर गेम

मान लीजिए आप कंप्यूटर को कोई गेम खेलना सिखाना चाहते हैं, जैसे कि शतरंज या सुपर मारियो। कंप्यूटर को गेम खेलने के लिए, हमें यह सिखाना होगा कि गेम के प्रत्येक स्थिति में कौन सा कदम उठाना है। हालांकि यह एक क्लासिफिकेशन समस्या जैसा लग सकता है, लेकिन ऐसा नहीं है - क्योंकि हमारे पास गेम की स्थितियों और उनके संबंधित क्रियाओं का डेटा सेट नहीं है। हालांकि हमारे पास कुछ डेटा हो सकता है, जैसे कि मौजूदा शतरंज मैच या सुपर मारियो खेलने वाले खिलाड़ियों की रिकॉर्डिंग, लेकिन यह डेटा संभवतः पर्याप्त संख्या में संभावित स्थितियों को कवर नहीं करेगा।

मौजूदा गेम डेटा की तलाश करने के बजाय, रिइनफोर्समेंट लर्निंग (RL) इस विचार पर आधारित है कि कंप्यूटर को बार-बार गेम खेलने दें और परिणामों का अवलोकन करें। इसलिए, रिइनफोर्समेंट लर्निंग लागू करने के लिए हमें दो चीजों की आवश्यकता होती है:

एक वातावरण और एक सिम्युलेटर, जो हमें बार-बार गेम खेलने की अनुमति देता है। यह सिम्युलेटर सभी गेम नियमों, संभावित स्थितियों और क्रियाओं को परिभाषित करेगा।
एक रिवॉर्ड फंक्शन, जो हमें प्रत्येक कदम या गेम के दौरान हमारे प्रदर्शन के बारे में बताएगा।

अन्य प्रकार की मशीन लर्निंग और RL के बीच मुख्य अंतर यह है कि RL में हमें आमतौर पर यह नहीं पता होता कि हम जीतेंगे या हारेंगे जब तक कि गेम समाप्त न हो जाए। इसलिए, हम यह नहीं कह सकते कि कोई विशेष कदम अकेले अच्छा है या नहीं - हमें केवल गेम के अंत में रिवॉर्ड मिलता है। और हमारा लक्ष्य ऐसे एल्गोरिदम डिज़ाइन करना है जो हमें अनिश्चित परिस्थितियों में मॉडल को प्रशिक्षित करने की अनुमति दें। हम एक RL एल्गोरिदम के बारे में सीखेंगे जिसे Q-लर्निंग कहा जाता है।

पाठ

क्रेडिट्स

"रिइनफोर्समेंट लर्निंग का परिचय" को ♥️ के साथ दिमित्री सॉश्निकोव द्वारा लिखा गया है।

अस्वीकरण:
यह दस्तावेज़ AI अनुवाद सेवा Co-op Translator का उपयोग करके अनुवादित किया गया है। जबकि हम सटीकता सुनिश्चित करने का प्रयास करते हैं, कृपया ध्यान दें कि स्वचालित अनुवाद में त्रुटियां या अशुद्धियां हो सकती हैं। मूल भाषा में उपलब्ध मूल दस्तावेज़ को प्रामाणिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सिफारिश की जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम उत्तरदायी नहीं हैं।