# सुदृढीकरण शिक्षाको परिचय सुदृढीकरण शिक्षा, RL, लाई पर्यवेक्षित शिक्षा र अप्रत्यक्ष शिक्षाको साथमा आधारभूत मेसिन शिक्षण दृष्टान्तहरूमध्ये एक मानिन्छ। RL निर्णयहरूबारे हो: सही निर्णयहरू प्रदान गर्ने वा कम्तिमा तिनबाट सिक्ने। कल्पना गर्नुहोस् कि तपाईंसँग स्टक बजार जस्तो सिमुलेट गरिएको वातावरण छ। यदि तपाईंले कुनै निश्चित नियम लागू गर्नुभयो भने के हुन्छ? के यसले सकारात्मक वा नकारात्मक प्रभाव पार्छ? यदि केही नकारात्मक हुन्छ भने, तपाईंले यो _नकारात्मक सुदृढीकरण_ लिनुपर्छ, यसबाट सिक्नुपर्छ, र मार्ग परिवर्तन गर्नुपर्छ। यदि यो सकारात्मक परिणाम हो भने, तपाईंले त्यस _सकारात्मक सुदृढीकरण_ मा निर्माण गर्नुपर्छ। ![पिटर र भेडिया](../../../translated_images/peter.779730f9ba3a8a8d9290600dcf55f2e491c0640c785af7ac0d64f583c49b8864.ne.png) > पिटर र उनका साथीहरूले भोकाएको भेडियाबाट भाग्नुपर्छ! छवि [जेन लूपर](https://twitter.com/jenlooper) द्वारा ## क्षेत्रीय विषय: पिटर र भेडिया (रूस) [पिटर र भेडिया](https://en.wikipedia.org/wiki/Peter_and_the_Wolf) एक सङ्गीतात्मक परी कथा हो, जसलाई रूसी सङ्गीतकार [सर्गेई प्रोकोफिएभ](https://en.wikipedia.org/wiki/Sergei_Prokofiev) ले लेखेका हुन्। यो युवा अग्रगामी पिटरको कथा हो, जसले साहसपूर्वक आफ्नो घरबाट बाहिर निस्केर जंगलमा भेडियालाई लखेट्न जान्छ। यस खण्डमा, हामी मेसिन शिक्षण एल्गोरिदमहरूलाई प्रशिक्षण दिनेछौं जसले पिटरलाई सहयोग गर्नेछ: - **अन्वेषण गर्नुहोस्** वरपरको क्षेत्र र एक उत्तम नेभिगेसन नक्सा निर्माण गर्नुहोस्। - **सिक्नुहोस्** स्केटबोर्ड कसरी प्रयोग गर्ने र यसमा सन्तुलन राख्ने, ताकि छिटो हिँड्न सकियोस्। [![पिटर र भेडिया](https://img.youtube.com/vi/Fmi5zHg4QSM/0.jpg)](https://www.youtube.com/watch?v=Fmi5zHg4QSM) > 🎥 माथिको छविमा क्लिक गरेर प्रोकोफिएभद्वारा पिटर र भेडिया सुन्नुहोस् ## सुदृढीकरण शिक्षा अघिल्ला खण्डहरूमा, तपाईंले मेसिन शिक्षण समस्याका दुई उदाहरणहरू देख्नुभएको छ: - **पर्यवेक्षित**, जहाँ हामीसँग समस्या समाधान गर्न नमूना समाधानहरू सुझाव दिने डाटासेटहरू हुन्छन्। [वर्गीकरण](../4-Classification/README.md) र [पुनरावृत्ति](../2-Regression/README.md) पर्यवेक्षित शिक्षण कार्यहरू हुन्। - **अपर्यवेक्षित**, जसमा हामीसँग लेबल गरिएको प्रशिक्षण डाटा हुँदैन। अप्रत्यक्ष शिक्षणको मुख्य उदाहरण [समूह बनाउने](../5-Clustering/README.md) हो। यस खण्डमा, हामी तपाईंलाई नयाँ प्रकारको शिक्षण समस्यासँग परिचय गराउनेछौं जसलाई लेबल गरिएको प्रशिक्षण डाटाको आवश्यकता पर्दैन। यस्ता समस्याका विभिन्न प्रकारहरू छन्: - **[अर्ध-पर्यवेक्षित शिक्षा](https://wikipedia.org/wiki/Semi-supervised_learning)**, जसमा हामीसँग धेरै अप्रत्यक्ष डाटा हुन्छ जुन मोडेललाई पूर्व-प्रशिक्षण गर्न प्रयोग गर्न सकिन्छ। - **[सुदृढीकरण शिक्षा](https://wikipedia.org/wiki/Reinforcement_learning)**, जसमा एक एजेन्टले कुनै सिमुलेट गरिएको वातावरणमा प्रयोग गरेर कसरी व्यवहार गर्ने भनेर सिक्छ। ### उदाहरण - कम्प्युटर खेल मानौं तपाईं कम्प्युटरलाई कुनै खेल खेल्न सिकाउन चाहनुहुन्छ, जस्तै चेस वा [सुपर मारियो](https://wikipedia.org/wiki/Super_Mario)। कम्प्युटरले खेल खेल्नका लागि, हामीलाई प्रत्येक खेल अवस्थाहरूमा कुन चाल चाल्ने भनेर भविष्यवाणी गर्न आवश्यक छ। यो वर्गीकरण समस्याजस्तो देखिन सक्छ, तर यो होइन - किनभने हामीसँग अवस्थाहरू र तिनका सम्बन्धित कार्यहरूको डाटासेट छैन। यद्यपि हामीसँग केही डाटा हुन सक्छ, जस्तै चेस खेलहरूको रेकर्डिङ वा सुपर मारियो खेल्ने खेलाडीहरूको रेकर्डिङ, यो सम्भावना छ कि त्यो डाटाले पर्याप्त संख्यामा सम्भावित अवस्थाहरूलाई कभर गर्दैन। अस्तित्वमा रहेको खेल डाटाको खोजी गर्ने सट्टा, **सुदृढीकरण शिक्षा** (RL) को आधारभूत विचार भनेको *कम्प्युटरलाई धेरै पटक खेल खेल्न लगाउने* र परिणामलाई अवलोकन गर्ने हो। त्यसैले, सुदृढीकरण शिक्षा लागू गर्न, हामीलाई दुई चीजहरू चाहिन्छ: - **एउटा वातावरण** र **सिमुलेटर**, जसले हामीलाई खेल धेरै पटक खेल्न अनुमति दिन्छ। यस सिमुलेटरले सबै खेलका नियमहरू साथै सम्भावित अवस्थाहरू र कार्यहरू परिभाषित गर्नेछ। - **एउटा पुरस्कार कार्य**, जसले हामीलाई प्रत्येक चाल वा खेलको क्रममा कत्तिको राम्रो गर्यौं भनेर बताउनेछ। अन्य प्रकारका मेसिन शिक्षण र RL बीचको मुख्य भिन्नता भनेको RL मा हामी सामान्यतया खेल समाप्त नभएसम्म जित्यौं वा हार्यौं भनेर थाहा पाउँदैनौं। त्यसैले, हामी कुनै निश्चित चाल मात्र राम्रो हो कि होइन भनेर भन्न सक्दैनौं - हामीलाई खेलको अन्त्यमा मात्र पुरस्कार प्राप्त हुन्छ। र हाम्रो लक्ष्य भनेको अनिश्चित अवस्थाहरूमा मोडेललाई प्रशिक्षण दिन अनुमति दिने एल्गोरिदमहरू डिजाइन गर्नु हो। हामी **Q-learning** भनिने RL एल्गोरिदमबारे सिक्नेछौं। ## पाठहरू 1. [सुदृढीकरण शिक्षाको परिचय र Q-Learning](1-QLearning/README.md) 2. [जिम सिमुलेशन वातावरणको प्रयोग](2-Gym/README.md) ## श्रेय "सुदृढीकरण शिक्षाको परिचय" ♥️ का साथ [दिमित्री सोश्निकोभ](http://soshnikov.com) द्वारा लेखिएको हो। --- **अस्वीकरण**: यो दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) प्रयोग गरेर अनुवाद गरिएको छ। हामी शुद्धताको लागि प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादमा त्रुटिहरू वा अशुद्धताहरू हुन सक्छ। यसको मूल भाषा मा रहेको मूल दस्तावेज़लाई आधिकारिक स्रोत मानिनुपर्छ। महत्वपूर्ण जानकारीको लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याको लागि हामी जिम्मेवार हुने छैनौं।