History

Pikachú 9e189e28e2 updated translations for ko, es, it, ja, sw, hi, tr and zh using co-op translator		8 months ago
..
1-QLearning	updated translations for ko, es, it, ja, sw, hi, tr and zh using co-op translator	8 months ago
2-Gym	updated translations for ko, es, it, ja, sw, hi, tr and zh using co-op translator	8 months ago
README.md	updated translations for ko, es, it, ja, sw, hi, tr and zh using co-op translator	8 months ago

README.md

परिचय: सुदृढीकरण शिक्षण

सुदृढीकरण शिक्षण, RL, को पर्यवेक्षित शिक्षण और अप्रशिक्षित शिक्षण के साथ एक बुनियादी मशीन लर्निंग प्रतिमान के रूप में देखा जाता है। RL निर्णयों के बारे में है: सही निर्णय देना या कम से कम उनसे सीखना।

कल्पना कीजिए कि आपके पास एक सिम्युलेटेड वातावरण है जैसे कि शेयर बाजार। अगर आप एक विशेष नियम लागू करते हैं तो क्या होता है? क्या इसका सकारात्मक या नकारात्मक प्रभाव होता है? यदि कुछ नकारात्मक होता है, तो आपको इस नकारात्मक सुदृढीकरण को लेना होगा, उससे सीखना होगा, और दिशा बदलनी होगी। यदि यह एक सकारात्मक परिणाम है, तो आपको उस सकारात्मक सुदृढीकरण पर निर्माण करना होगा।

पीटर और उसके दोस्तों को भूखे भेड़िये से बचना है! चित्र Jen Looper द्वारा

क्षेत्रीय विषय: पीटर और भेड़िया (रूस)

पीटर और भेड़िया एक संगीत परी कथा है जिसे रूसी संगीतकार सर्गेई प्रोकोफिएव ने लिखा है। यह एक युवा अग्रणी पीटर की कहानी है, जो बहादुरी से अपने घर से बाहर जंगल की साफ़ जगह पर भेड़िये का पीछा करने के लिए जाता है। इस अनुभाग में, हम मशीन लर्निंग एल्गोरिदम को प्रशिक्षित करेंगे जो पीटर की मदद करेंगे:

आसपास के क्षेत्र का अन्वेषण करें और एक इष्टतम नेविगेशन मानचित्र बनाएं
सीखें कि स्केटबोर्ड का उपयोग कैसे करें और उस पर संतुलन बनाए रखें, ताकि तेजी से घूम सकें।

🎥 प्रोकोफिएव द्वारा पीटर और भेड़िया सुनने के लिए ऊपर की छवि पर क्लिक करें

सुदृढीकरण शिक्षण

पिछले अनुभागों में, आपने मशीन लर्निंग समस्याओं के दो उदाहरण देखे हैं:

पर्यवेक्षित, जहाँ हमारे पास डेटा सेट होते हैं जो उस समस्या का समाधान सुझाते हैं जिसे हम हल करना चाहते हैं। वर्गीकरण और प्रतिगमन पर्यवेक्षित शिक्षण कार्य हैं।
अप्रशिक्षित, जिसमें हमारे पास लेबल किया हुआ प्रशिक्षण डेटा नहीं होता है। अप्रशिक्षित शिक्षण का मुख्य उदाहरण क्लस्टरिंग है।

इस अनुभाग में, हम आपको एक नए प्रकार की शिक्षण समस्या से परिचित कराएंगे जिसके लिए लेबल किया हुआ प्रशिक्षण डेटा आवश्यक नहीं है। ऐसे कई प्रकार की समस्याएं हैं:

अर्ध-पर्यवेक्षित शिक्षण, जिसमें हमारे पास बहुत सारा बिना लेबल का डेटा होता है जिसका उपयोग मॉडल को पूर्व-प्रशिक्षित करने के लिए किया जा सकता है।
सुदृढीकरण शिक्षण, जिसमें एक एजेंट कुछ सिम्युलेटेड वातावरण में प्रयोग करके व्यवहार करना सीखता है।

उदाहरण - कंप्यूटर गेम

मान लीजिए आप कंप्यूटर को कोई गेम खेलना सिखाना चाहते हैं, जैसे शतरंज, या सुपर मारियो। कंप्यूटर को गेम खेलने के लिए, हमें उसे यह अनुमान लगाना होगा कि प्रत्येक गेम स्थिति में कौन सा कदम उठाना है। जबकि यह एक वर्गीकरण समस्या की तरह लग सकता है, ऐसा नहीं है - क्योंकि हमारे पास स्थिति और संबंधित क्रियाओं के साथ एक डेटा सेट नहीं है। हमारे पास कुछ डेटा हो सकता है जैसे मौजूदा शतरंज मैच या खिलाड़ी सुपर मारियो खेलते हुए, लेकिन संभावना है कि वह डेटा पर्याप्त रूप से बड़ी संख्या में संभावित स्थितियों को कवर नहीं करेगा।

मौजूदा गेम डेटा की तलाश करने के बजाय, सुदृढीकरण शिक्षण (RL) कंप्यूटर को कई बार खेल खेलने और परिणाम का अवलोकन करने के विचार पर आधारित है। इस प्रकार, सुदृढीकरण शिक्षण को लागू करने के लिए, हमें दो चीजों की आवश्यकता होती है:

एक वातावरण और एक सिम्युलेटर जो हमें कई बार गेम खेलने की अनुमति देता है। यह सिम्युलेटर सभी गेम नियमों के साथ-साथ संभावित स्थितियों और क्रियाओं को परिभाषित करेगा।
एक पुरस्कार फ़ंक्शन, जो हमें यह बताएगा कि प्रत्येक चाल या गेम के दौरान हमने कितना अच्छा किया।

अन्य प्रकार की मशीन लर्निंग और RL के बीच मुख्य अंतर यह है कि RL में हम आमतौर पर यह नहीं जानते कि हम जीतेंगे या हारेंगे जब तक कि हम गेम समाप्त नहीं करते। इस प्रकार, हम यह नहीं कह सकते कि एक निश्चित चाल अकेले अच्छी है या नहीं - हमें केवल गेम के अंत में एक पुरस्कार प्राप्त होता है। और हमारा लक्ष्य ऐसे एल्गोरिदम डिजाइन करना है जो हमें अनिश्चित परिस्थितियों में एक मॉडल को प्रशिक्षित करने की अनुमति देंगे। हम एक RL एल्गोरिदम के बारे में जानेंगे जिसे Q-लर्निंग कहा जाता है।

पाठ

श्रेय

"सुदृढीकरण शिक्षण का परिचय" ♥️ के साथ Dmitry Soshnikov द्वारा लिखा गया था

अस्वीकरण: यह दस्तावेज़ मशीन-आधारित एआई अनुवाद सेवाओं का उपयोग करके अनुवादित किया गया है। जबकि हम सटीकता के लिए प्रयास करते हैं, कृपया ध्यान दें कि स्वचालित अनुवाद में त्रुटियाँ या अशुद्धियाँ हो सकती हैं। मूल भाषा में मूल दस्तावेज़ को आधिकारिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सिफारिश की जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम उत्तरदायी नहीं हैं।