You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
ML-For-Beginners/translations/hi/8-Reinforcement
Pikachú 9e189e28e2
updated translations for ko, es, it, ja, sw, hi, tr and zh using co-op translator
8 months ago
..
1-QLearning updated translations for ko, es, it, ja, sw, hi, tr and zh using co-op translator 8 months ago
2-Gym updated translations for ko, es, it, ja, sw, hi, tr and zh using co-op translator 8 months ago
README.md updated translations for ko, es, it, ja, sw, hi, tr and zh using co-op translator 8 months ago

README.md

परिचय: सुदृढीकरण शिक्षण

सुदृढीकरण शिक्षण, RL, को पर्यवेक्षित शिक्षण और अप्रशिक्षित शिक्षण के साथ एक बुनियादी मशीन लर्निंग प्रतिमान के रूप में देखा जाता है। RL निर्णयों के बारे में है: सही निर्णय देना या कम से कम उनसे सीखना।

कल्पना कीजिए कि आपके पास एक सिम्युलेटेड वातावरण है जैसे कि शेयर बाजार। अगर आप एक विशेष नियम लागू करते हैं तो क्या होता है? क्या इसका सकारात्मक या नकारात्मक प्रभाव होता है? यदि कुछ नकारात्मक होता है, तो आपको इस नकारात्मक सुदृढीकरण को लेना होगा, उससे सीखना होगा, और दिशा बदलनी होगी। यदि यह एक सकारात्मक परिणाम है, तो आपको उस सकारात्मक सुदृढीकरण पर निर्माण करना होगा।

peter and the wolf

पीटर और उसके दोस्तों को भूखे भेड़िये से बचना है! चित्र Jen Looper द्वारा

क्षेत्रीय विषय: पीटर और भेड़िया (रूस)

पीटर और भेड़िया एक संगीत परी कथा है जिसे रूसी संगीतकार सर्गेई प्रोकोफिएव ने लिखा है। यह एक युवा अग्रणी पीटर की कहानी है, जो बहादुरी से अपने घर से बाहर जंगल की साफ़ जगह पर भेड़िये का पीछा करने के लिए जाता है। इस अनुभाग में, हम मशीन लर्निंग एल्गोरिदम को प्रशिक्षित करेंगे जो पीटर की मदद करेंगे:

  • आसपास के क्षेत्र का अन्वेषण करें और एक इष्टतम नेविगेशन मानचित्र बनाएं
  • सीखें कि स्केटबोर्ड का उपयोग कैसे करें और उस पर संतुलन बनाए रखें, ताकि तेजी से घूम सकें।

Peter and the Wolf

🎥 प्रोकोफिएव द्वारा पीटर और भेड़िया सुनने के लिए ऊपर की छवि पर क्लिक करें

सुदृढीकरण शिक्षण

पिछले अनुभागों में, आपने मशीन लर्निंग समस्याओं के दो उदाहरण देखे हैं:

  • पर्यवेक्षित, जहाँ हमारे पास डेटा सेट होते हैं जो उस समस्या का समाधान सुझाते हैं जिसे हम हल करना चाहते हैं। वर्गीकरण और प्रतिगमन पर्यवेक्षित शिक्षण कार्य हैं।
  • अप्रशिक्षित, जिसमें हमारे पास लेबल किया हुआ प्रशिक्षण डेटा नहीं होता है। अप्रशिक्षित शिक्षण का मुख्य उदाहरण क्लस्टरिंग है।

इस अनुभाग में, हम आपको एक नए प्रकार की शिक्षण समस्या से परिचित कराएंगे जिसके लिए लेबल किया हुआ प्रशिक्षण डेटा आवश्यक नहीं है। ऐसे कई प्रकार की समस्याएं हैं:

  • अर्ध-पर्यवेक्षित शिक्षण, जिसमें हमारे पास बहुत सारा बिना लेबल का डेटा होता है जिसका उपयोग मॉडल को पूर्व-प्रशिक्षित करने के लिए किया जा सकता है।
  • सुदृढीकरण शिक्षण, जिसमें एक एजेंट कुछ सिम्युलेटेड वातावरण में प्रयोग करके व्यवहार करना सीखता है।

उदाहरण - कंप्यूटर गेम

मान लीजिए आप कंप्यूटर को कोई गेम खेलना सिखाना चाहते हैं, जैसे शतरंज, या सुपर मारियो। कंप्यूटर को गेम खेलने के लिए, हमें उसे यह अनुमान लगाना होगा कि प्रत्येक गेम स्थिति में कौन सा कदम उठाना है। जबकि यह एक वर्गीकरण समस्या की तरह लग सकता है, ऐसा नहीं है - क्योंकि हमारे पास स्थिति और संबंधित क्रियाओं के साथ एक डेटा सेट नहीं है। हमारे पास कुछ डेटा हो सकता है जैसे मौजूदा शतरंज मैच या खिलाड़ी सुपर मारियो खेलते हुए, लेकिन संभावना है कि वह डेटा पर्याप्त रूप से बड़ी संख्या में संभावित स्थितियों को कवर नहीं करेगा।

मौजूदा गेम डेटा की तलाश करने के बजाय, सुदृढीकरण शिक्षण (RL) कंप्यूटर को कई बार खेल खेलने और परिणाम का अवलोकन करने के विचार पर आधारित है। इस प्रकार, सुदृढीकरण शिक्षण को लागू करने के लिए, हमें दो चीजों की आवश्यकता होती है:

  • एक वातावरण और एक सिम्युलेटर जो हमें कई बार गेम खेलने की अनुमति देता है। यह सिम्युलेटर सभी गेम नियमों के साथ-साथ संभावित स्थितियों और क्रियाओं को परिभाषित करेगा।

  • एक पुरस्कार फ़ंक्शन, जो हमें यह बताएगा कि प्रत्येक चाल या गेम के दौरान हमने कितना अच्छा किया।

अन्य प्रकार की मशीन लर्निंग और RL के बीच मुख्य अंतर यह है कि RL में हम आमतौर पर यह नहीं जानते कि हम जीतेंगे या हारेंगे जब तक कि हम गेम समाप्त नहीं करते। इस प्रकार, हम यह नहीं कह सकते कि एक निश्चित चाल अकेले अच्छी है या नहीं - हमें केवल गेम के अंत में एक पुरस्कार प्राप्त होता है। और हमारा लक्ष्य ऐसे एल्गोरिदम डिजाइन करना है जो हमें अनिश्चित परिस्थितियों में एक मॉडल को प्रशिक्षित करने की अनुमति देंगे। हम एक RL एल्गोरिदम के बारे में जानेंगे जिसे Q-लर्निंग कहा जाता है।

पाठ

  1. सुदृढीकरण शिक्षण और Q-लर्निंग का परिचय
  2. जिम सिम्युलेशन वातावरण का उपयोग करना

श्रेय

"सुदृढीकरण शिक्षण का परिचय" ♥️ के साथ Dmitry Soshnikov द्वारा लिखा गया था

अस्वीकरण: यह दस्तावेज़ मशीन-आधारित एआई अनुवाद सेवाओं का उपयोग करके अनुवादित किया गया है। जबकि हम सटीकता के लिए प्रयास करते हैं, कृपया ध्यान दें कि स्वचालित अनुवाद में त्रुटियाँ या अशुद्धियाँ हो सकती हैं। मूल भाषा में मूल दस्तावेज़ को आधिकारिक स्रोत माना जाना चाहिए। महत्वपूर्ण जानकारी के लिए, पेशेवर मानव अनुवाद की सिफारिश की जाती है। इस अनुवाद के उपयोग से उत्पन्न किसी भी गलतफहमी या गलत व्याख्या के लिए हम उत्तरदायी नहीं हैं।