You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
67 lines
12 KiB
67 lines
12 KiB
<!--
|
|
CO_OP_TRANSLATOR_METADATA:
|
|
{
|
|
"original_hash": "20ca019012b1725de956681d036d8b18",
|
|
"translation_date": "2025-08-29T18:05:07+00:00",
|
|
"source_file": "8-Reinforcement/README.md",
|
|
"language_code": "ne"
|
|
}
|
|
-->
|
|
# सुदृढीकरण शिक्षाको परिचय
|
|
|
|
सुदृढीकरण शिक्षा, RL, लाई पर्यवेक्षित शिक्षा र अप्रत्यक्ष शिक्षाको साथमा आधारभूत मेसिन शिक्षण दृष्टान्तहरूमध्ये एक मानिन्छ। RL निर्णयहरूबारे हो: सही निर्णयहरू प्रदान गर्ने वा कम्तिमा तिनबाट सिक्ने।
|
|
|
|
कल्पना गर्नुहोस् कि तपाईंसँग स्टक बजार जस्तो सिमुलेट गरिएको वातावरण छ। यदि तपाईंले कुनै निश्चित नियम लागू गर्नुभयो भने के हुन्छ? के यसले सकारात्मक वा नकारात्मक प्रभाव पार्छ? यदि केही नकारात्मक हुन्छ भने, तपाईंले यो _नकारात्मक सुदृढीकरण_ लिनुपर्छ, यसबाट सिक्नुपर्छ, र मार्ग परिवर्तन गर्नुपर्छ। यदि यो सकारात्मक परिणाम हो भने, तपाईंले त्यस _सकारात्मक सुदृढीकरण_ मा निर्माण गर्नुपर्छ।
|
|
|
|

|
|
|
|
> पिटर र उनका साथीहरूले भोकाएको भेडियाबाट भाग्नुपर्छ! छवि [जेन लूपर](https://twitter.com/jenlooper) द्वारा
|
|
|
|
## क्षेत्रीय विषय: पिटर र भेडिया (रूस)
|
|
|
|
[पिटर र भेडिया](https://en.wikipedia.org/wiki/Peter_and_the_Wolf) एक सङ्गीतात्मक परी कथा हो, जसलाई रूसी सङ्गीतकार [सर्गेई प्रोकोफिएभ](https://en.wikipedia.org/wiki/Sergei_Prokofiev) ले लेखेका हुन्। यो युवा अग्रगामी पिटरको कथा हो, जसले साहसपूर्वक आफ्नो घरबाट बाहिर निस्केर जंगलमा भेडियालाई लखेट्न जान्छ। यस खण्डमा, हामी मेसिन शिक्षण एल्गोरिदमहरूलाई प्रशिक्षण दिनेछौं जसले पिटरलाई सहयोग गर्नेछ:
|
|
|
|
- **अन्वेषण गर्नुहोस्** वरपरको क्षेत्र र एक उत्तम नेभिगेसन नक्सा निर्माण गर्नुहोस्।
|
|
- **सिक्नुहोस्** स्केटबोर्ड कसरी प्रयोग गर्ने र यसमा सन्तुलन राख्ने, ताकि छिटो हिँड्न सकियोस्।
|
|
|
|
[](https://www.youtube.com/watch?v=Fmi5zHg4QSM)
|
|
|
|
> 🎥 माथिको छविमा क्लिक गरेर प्रोकोफिएभद्वारा पिटर र भेडिया सुन्नुहोस्
|
|
|
|
## सुदृढीकरण शिक्षा
|
|
|
|
अघिल्ला खण्डहरूमा, तपाईंले मेसिन शिक्षण समस्याका दुई उदाहरणहरू देख्नुभएको छ:
|
|
|
|
- **पर्यवेक्षित**, जहाँ हामीसँग समस्या समाधान गर्न नमूना समाधानहरू सुझाव दिने डाटासेटहरू हुन्छन्। [वर्गीकरण](../4-Classification/README.md) र [पुनरावृत्ति](../2-Regression/README.md) पर्यवेक्षित शिक्षण कार्यहरू हुन्।
|
|
- **अपर्यवेक्षित**, जसमा हामीसँग लेबल गरिएको प्रशिक्षण डाटा हुँदैन। अप्रत्यक्ष शिक्षणको मुख्य उदाहरण [समूह बनाउने](../5-Clustering/README.md) हो।
|
|
|
|
यस खण्डमा, हामी तपाईंलाई नयाँ प्रकारको शिक्षण समस्यासँग परिचय गराउनेछौं जसलाई लेबल गरिएको प्रशिक्षण डाटाको आवश्यकता पर्दैन। यस्ता समस्याका विभिन्न प्रकारहरू छन्:
|
|
|
|
- **[अर्ध-पर्यवेक्षित शिक्षा](https://wikipedia.org/wiki/Semi-supervised_learning)**, जसमा हामीसँग धेरै अप्रत्यक्ष डाटा हुन्छ जुन मोडेललाई पूर्व-प्रशिक्षण गर्न प्रयोग गर्न सकिन्छ।
|
|
- **[सुदृढीकरण शिक्षा](https://wikipedia.org/wiki/Reinforcement_learning)**, जसमा एक एजेन्टले कुनै सिमुलेट गरिएको वातावरणमा प्रयोग गरेर कसरी व्यवहार गर्ने भनेर सिक्छ।
|
|
|
|
### उदाहरण - कम्प्युटर खेल
|
|
|
|
मानौं तपाईं कम्प्युटरलाई कुनै खेल खेल्न सिकाउन चाहनुहुन्छ, जस्तै चेस वा [सुपर मारियो](https://wikipedia.org/wiki/Super_Mario)। कम्प्युटरले खेल खेल्नका लागि, हामीलाई प्रत्येक खेल अवस्थाहरूमा कुन चाल चाल्ने भनेर भविष्यवाणी गर्न आवश्यक छ। यो वर्गीकरण समस्याजस्तो देखिन सक्छ, तर यो होइन - किनभने हामीसँग अवस्थाहरू र तिनका सम्बन्धित कार्यहरूको डाटासेट छैन। यद्यपि हामीसँग केही डाटा हुन सक्छ, जस्तै चेस खेलहरूको रेकर्डिङ वा सुपर मारियो खेल्ने खेलाडीहरूको रेकर्डिङ, यो सम्भावना छ कि त्यो डाटाले पर्याप्त संख्यामा सम्भावित अवस्थाहरूलाई कभर गर्दैन।
|
|
|
|
अस्तित्वमा रहेको खेल डाटाको खोजी गर्ने सट्टा, **सुदृढीकरण शिक्षा** (RL) को आधारभूत विचार भनेको *कम्प्युटरलाई धेरै पटक खेल खेल्न लगाउने* र परिणामलाई अवलोकन गर्ने हो। त्यसैले, सुदृढीकरण शिक्षा लागू गर्न, हामीलाई दुई चीजहरू चाहिन्छ:
|
|
|
|
- **एउटा वातावरण** र **सिमुलेटर**, जसले हामीलाई खेल धेरै पटक खेल्न अनुमति दिन्छ। यस सिमुलेटरले सबै खेलका नियमहरू साथै सम्भावित अवस्थाहरू र कार्यहरू परिभाषित गर्नेछ।
|
|
|
|
- **एउटा पुरस्कार कार्य**, जसले हामीलाई प्रत्येक चाल वा खेलको क्रममा कत्तिको राम्रो गर्यौं भनेर बताउनेछ।
|
|
|
|
अन्य प्रकारका मेसिन शिक्षण र RL बीचको मुख्य भिन्नता भनेको RL मा हामी सामान्यतया खेल समाप्त नभएसम्म जित्यौं वा हार्यौं भनेर थाहा पाउँदैनौं। त्यसैले, हामी कुनै निश्चित चाल मात्र राम्रो हो कि होइन भनेर भन्न सक्दैनौं - हामीलाई खेलको अन्त्यमा मात्र पुरस्कार प्राप्त हुन्छ। र हाम्रो लक्ष्य भनेको अनिश्चित अवस्थाहरूमा मोडेललाई प्रशिक्षण दिन अनुमति दिने एल्गोरिदमहरू डिजाइन गर्नु हो। हामी **Q-learning** भनिने RL एल्गोरिदमबारे सिक्नेछौं।
|
|
|
|
## पाठहरू
|
|
|
|
1. [सुदृढीकरण शिक्षाको परिचय र Q-Learning](1-QLearning/README.md)
|
|
2. [जिम सिमुलेशन वातावरणको प्रयोग](2-Gym/README.md)
|
|
|
|
## श्रेय
|
|
|
|
"सुदृढीकरण शिक्षाको परिचय" ♥️ का साथ [दिमित्री सोश्निकोभ](http://soshnikov.com) द्वारा लेखिएको हो।
|
|
|
|
---
|
|
|
|
**अस्वीकरण**:
|
|
यो दस्तावेज़ AI अनुवाद सेवा [Co-op Translator](https://github.com/Azure/co-op-translator) प्रयोग गरेर अनुवाद गरिएको छ। हामी शुद्धताको लागि प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादमा त्रुटिहरू वा अशुद्धताहरू हुन सक्छ। यसको मूल भाषा मा रहेको मूल दस्तावेज़लाई आधिकारिक स्रोत मानिनुपर्छ। महत्वपूर्ण जानकारीको लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याको लागि हामी जिम्मेवार हुने छैनौं। |