|
2 weeks ago | |
---|---|---|
.. | ||
1-QLearning | 2 weeks ago | |
2-Gym | 2 weeks ago | |
README.md | 3 weeks ago |
README.md
परिचय: रिइनफोर्समेंट लर्निंग
रिइनफोर्समेंट लर्निंग (RL) को मशीन लर्निंग के तीन मुख्य दृष्टिकोणों में से एक माना जाता है, अन्य दो हैं सुपरवाइज्ड लर्निंग और अनसुपरवाइज्ड लर्निंग। RL निर्णय लेने पर आधारित है: सही निर्णय लेना या कम से कम उनसे सीखना।
कल्पना करें कि आपके पास एक सिम्युलेटेड वातावरण है, जैसे कि शेयर बाजार। यदि आप कोई विशेष नियम लागू करते हैं, तो क्या इसका सकारात्मक या नकारात्मक प्रभाव पड़ता है? यदि कुछ नकारात्मक होता है, तो आपको इस नकारात्मक रिइनफोर्समेंट से सीखना होगा और अपनी दिशा बदलनी होगी। यदि परिणाम सकारात्मक है, तो आपको उस सकारात्मक रिइनफोर्समेंट पर आगे बढ़ना होगा।
पीटर और उसके दोस्त भूखे भेड़िये से बचने की कोशिश कर रहे हैं! छवि: जेन लूपर
क्षेत्रीय विषय: पीटर और भेड़िया (रूस)
पीटर और भेड़िया एक संगीत परीकथा है जिसे रूसी संगीतकार सर्गेई प्रोकोफिएव ने लिखा था। यह कहानी युवा पायनियर पीटर की है, जो बहादुरी से अपने घर से बाहर निकलकर जंगल में भेड़िये का पीछा करता है। इस खंड में, हम मशीन लर्निंग एल्गोरिदम को प्रशिक्षित करेंगे जो पीटर की मदद करेंगे:
- आसपास के क्षेत्र का पता लगाएं और एक आदर्श नेविगेशन मानचित्र बनाएं।
- स्केटबोर्ड का उपयोग करना और उस पर संतुलन बनाना सीखें, ताकि वह तेजी से घूम सके।
🎥 ऊपर दी गई छवि पर क्लिक करें और प्रोकोफिएव द्वारा "पीटर और भेड़िया" सुनें।
रिइनफोर्समेंट लर्निंग
पिछले खंडों में, आपने मशीन लर्निंग समस्याओं के दो उदाहरण देखे:
- सुपरवाइज्ड, जहां हमारे पास डेटा सेट होते हैं जो उस समस्या के संभावित समाधान सुझाते हैं जिसे हम हल करना चाहते हैं। क्लासिफिकेशन और रेग्रेशन सुपरवाइज्ड लर्निंग कार्य हैं।
- अनसुपरवाइज्ड, जिसमें हमारे पास लेबल वाले प्रशिक्षण डेटा नहीं होते। अनसुपरवाइज्ड लर्निंग का मुख्य उदाहरण क्लस्टरिंग है।
इस खंड में, हम आपको एक नए प्रकार की लर्निंग समस्या से परिचित कराएंगे, जिसमें लेबल वाले प्रशिक्षण डेटा की आवश्यकता नहीं होती। ऐसी समस्याओं के कई प्रकार होते हैं:
- सेमी-सुपरवाइज्ड लर्निंग, जहां हमारे पास बहुत सारा अनलेबल्ड डेटा होता है जिसे मॉडल को प्री-ट्रेन करने के लिए उपयोग किया जा सकता है।
- रिइनफोर्समेंट लर्निंग, जिसमें एक एजेंट सिम्युलेटेड वातावरण में प्रयोग करके व्यवहार करना सीखता है।
उदाहरण - कंप्यूटर गेम
मान लीजिए आप कंप्यूटर को कोई गेम खेलना सिखाना चाहते हैं, जैसे कि शतरंज या सुपर मारियो। कंप्यूटर को गेम खेलने के लिए, हमें यह सिखाना होगा कि गेम के प्रत्येक स्थिति में कौन सा कदम उठाना है। हालांकि यह एक क्लासिफिकेशन समस्या जैसा लग सकता है, लेकिन ऐसा नहीं है - क्योंकि हमारे पास गेम की स्थितियों और उनके संबंधित क्रियाओं का डेटा सेट नहीं है। हालांकि हमारे पास कुछ डेटा हो सकता है, जैसे कि मौजूदा शतरंज मैच या सुपर मारियो खेलने वाले खिलाड़ियों की रिकॉर्डिंग, लेकिन यह डेटा संभवतः पर्याप्त संख्या में संभावित स्थितियों को कवर नहीं करेगा।
मौजूदा गेम डेटा की तलाश करने के बजाय, रिइनफोर्समेंट लर्निंग (RL) इस विचार पर आधारित है कि कंप्यूटर को बार-बार गेम खेलने दें और परिणामों का अवलोकन करें। इसलिए, रिइनफोर्समेंट लर्निंग लागू करने के लिए हमें दो चीजों की आवश्यकता होती है:
-
एक वातावरण और एक सिम्युलेटर, जो हमें बार-बार गेम खेलने की अनुमति देता है। यह सिम्युलेटर सभी गेम नियमों, संभावित स्थितियों और क्रियाओं को परिभाषित करेगा।
-
एक रिवॉर्ड फंक्शन, जो हमें प्रत्येक कदम या गेम के दौरान हमारे प्रदर्शन के बारे में बताएगा।
अन्य प्रकार की मशीन लर्निंग और RL के बीच मुख्य अंतर यह है कि RL में हमें आमतौर पर यह नहीं पता होता कि हम जीतेंगे या हारेंगे जब तक कि गेम समाप्त न हो जाए। इसलिए, हम यह नहीं कह सकते कि कोई विशेष कदम अकेले अच्छा है या नहीं - हमें केवल गेम के अंत में रिवॉर्ड मिलता है। और हमारा लक्ष्य ऐसे एल्गोरिदम डिज़ाइन करना है जो हमें अनिश्चित परिस्थितियों में मॉडल को प्रशिक्षित करने की अनुमति दें। हम एक RL एल्गोरिदम के बारे में सीखेंगे जिसे Q-लर्निंग कहा जाता है।
पाठ
क्रेडिट्स
"रिइनफोर्समेंट लर्निंग का परिचय" को ♥️ के साथ दिमित्री सॉश्निकोव द्वारा लिखा गया है।
अस्वीकरण:
यह दस्तावेज़ AI अनुवाद सेवा Co-op Translator का उपयोग करके अनुवादित किया गया है। जबकि हम सटीकता सुनिश्चित करने का प्रयास करते हैं, कृपया ध्यान दें कि स्वचालित अनुवाद में त्रुटियां या अशुद्धियां हो सकती हैं। मूल भाषा में उपलब्ध मूल दस्तावेज़ को प्रामाणिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सिफारिश की जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम उत्तरदायी नहीं हैं।