You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
ML-For-Beginners/translations/ne/8-Reinforcement
localizeflow[bot] 72b41e56ff
chore(i18n): sync translations with latest source changes (chunk 1/1, 300 changes)
4 months ago
..
1-QLearning chore(i18n): sync translations with latest source changes (chunk 1/1, 300 changes) 4 months ago
2-Gym chore(i18n): sync translations with latest source changes (chunk 1/1, 300 changes) 4 months ago
README.md chore(i18n): sync translations with latest source changes (chunk 1/1, 300 changes) 4 months ago

README.md

सुदृढीकरण शिक्षाको परिचय

सुदृढीकरण शिक्षा, RL, लाई पर्यवेक्षित शिक्षा र अप्रत्यक्ष शिक्षाको साथमा आधारभूत मेसिन शिक्षण दृष्टान्तहरूमध्ये एक मानिन्छ। RL निर्णयहरूबारे हो: सही निर्णयहरू प्रदान गर्ने वा कम्तिमा तिनबाट सिक्ने।

कल्पना गर्नुहोस् कि तपाईंसँग स्टक बजार जस्तो सिमुलेट गरिएको वातावरण छ। यदि तपाईंले कुनै निश्चित नियम लागू गर्नुभयो भने के हुन्छ? के यसले सकारात्मक वा नकारात्मक प्रभाव पार्छ? यदि केही नकारात्मक हुन्छ भने, तपाईंले यो नकारात्मक सुदृढीकरण लिनुपर्छ, यसबाट सिक्नुपर्छ, र मार्ग परिवर्तन गर्नुपर्छ। यदि यो सकारात्मक परिणाम हो भने, तपाईंले त्यस सकारात्मक सुदृढीकरण मा निर्माण गर्नुपर्छ।

पिटर र भेडिया

पिटर र उनका साथीहरूले भोकाएको भेडियाबाट भाग्नुपर्छ! छवि जेन लूपर द्वारा

क्षेत्रीय विषय: पिटर र भेडिया (रूस)

पिटर र भेडिया एक सङ्गीतात्मक परी कथा हो, जसलाई रूसी सङ्गीतकार सर्गेई प्रोकोफिएभ ले लेखेका हुन्। यो युवा अग्रगामी पिटरको कथा हो, जसले साहसपूर्वक आफ्नो घरबाट बाहिर निस्केर जंगलमा भेडियालाई लखेट्न जान्छ। यस खण्डमा, हामी मेसिन शिक्षण एल्गोरिदमहरूलाई प्रशिक्षण दिनेछौं जसले पिटरलाई सहयोग गर्नेछ:

  • अन्वेषण गर्नुहोस् वरपरको क्षेत्र र एक उत्तम नेभिगेसन नक्सा निर्माण गर्नुहोस्।
  • सिक्नुहोस् स्केटबोर्ड कसरी प्रयोग गर्ने र यसमा सन्तुलन राख्ने, ताकि छिटो हिँड्न सकियोस्।

पिटर र भेडिया

🎥 माथिको छविमा क्लिक गरेर प्रोकोफिएभद्वारा पिटर र भेडिया सुन्नुहोस्

सुदृढीकरण शिक्षा

अघिल्ला खण्डहरूमा, तपाईंले मेसिन शिक्षण समस्याका दुई उदाहरणहरू देख्नुभएको छ:

  • पर्यवेक्षित, जहाँ हामीसँग समस्या समाधान गर्न नमूना समाधानहरू सुझाव दिने डाटासेटहरू हुन्छन्। वर्गीकरणपुनरावृत्ति पर्यवेक्षित शिक्षण कार्यहरू हुन्।
  • अपर्यवेक्षित, जसमा हामीसँग लेबल गरिएको प्रशिक्षण डाटा हुँदैन। अप्रत्यक्ष शिक्षणको मुख्य उदाहरण समूह बनाउने हो।

यस खण्डमा, हामी तपाईंलाई नयाँ प्रकारको शिक्षण समस्यासँग परिचय गराउनेछौं जसलाई लेबल गरिएको प्रशिक्षण डाटाको आवश्यकता पर्दैन। यस्ता समस्याका विभिन्न प्रकारहरू छन्:

  • अर्ध-पर्यवेक्षित शिक्षा, जसमा हामीसँग धेरै अप्रत्यक्ष डाटा हुन्छ जुन मोडेललाई पूर्व-प्रशिक्षण गर्न प्रयोग गर्न सकिन्छ।
  • सुदृढीकरण शिक्षा, जसमा एक एजेन्टले कुनै सिमुलेट गरिएको वातावरणमा प्रयोग गरेर कसरी व्यवहार गर्ने भनेर सिक्छ।

उदाहरण - कम्प्युटर खेल

मानौं तपाईं कम्प्युटरलाई कुनै खेल खेल्न सिकाउन चाहनुहुन्छ, जस्तै चेस वा सुपर मारियो। कम्प्युटरले खेल खेल्नका लागि, हामीलाई प्रत्येक खेल अवस्थाहरूमा कुन चाल चाल्ने भनेर भविष्यवाणी गर्न आवश्यक छ। यो वर्गीकरण समस्याजस्तो देखिन सक्छ, तर यो होइन - किनभने हामीसँग अवस्थाहरू र तिनका सम्बन्धित कार्यहरूको डाटासेट छैन। यद्यपि हामीसँग केही डाटा हुन सक्छ, जस्तै चेस खेलहरूको रेकर्डिङ वा सुपर मारियो खेल्ने खेलाडीहरूको रेकर्डिङ, यो सम्भावना छ कि त्यो डाटाले पर्याप्त संख्यामा सम्भावित अवस्थाहरूलाई कभर गर्दैन।

अस्तित्वमा रहेको खेल डाटाको खोजी गर्ने सट्टा, सुदृढीकरण शिक्षा (RL) को आधारभूत विचार भनेको कम्प्युटरलाई धेरै पटक खेल खेल्न लगाउने र परिणामलाई अवलोकन गर्ने हो। त्यसैले, सुदृढीकरण शिक्षा लागू गर्न, हामीलाई दुई चीजहरू चाहिन्छ:

  • एउटा वातावरणसिमुलेटर, जसले हामीलाई खेल धेरै पटक खेल्न अनुमति दिन्छ। यस सिमुलेटरले सबै खेलका नियमहरू साथै सम्भावित अवस्थाहरू र कार्यहरू परिभाषित गर्नेछ।

  • एउटा पुरस्कार कार्य, जसले हामीलाई प्रत्येक चाल वा खेलको क्रममा कत्तिको राम्रो गर्यौं भनेर बताउनेछ।

अन्य प्रकारका मेसिन शिक्षण र RL बीचको मुख्य भिन्नता भनेको RL मा हामी सामान्यतया खेल समाप्त नभएसम्म जित्यौं वा हार्यौं भनेर थाहा पाउँदैनौं। त्यसैले, हामी कुनै निश्चित चाल मात्र राम्रो हो कि होइन भनेर भन्न सक्दैनौं - हामीलाई खेलको अन्त्यमा मात्र पुरस्कार प्राप्त हुन्छ। र हाम्रो लक्ष्य भनेको अनिश्चित अवस्थाहरूमा मोडेललाई प्रशिक्षण दिन अनुमति दिने एल्गोरिदमहरू डिजाइन गर्नु हो। हामी Q-learning भनिने RL एल्गोरिदमबारे सिक्नेछौं।

पाठहरू

  1. सुदृढीकरण शिक्षाको परिचय र Q-Learning
  2. जिम सिमुलेशन वातावरणको प्रयोग

श्रेय

"सुदृढीकरण शिक्षाको परिचय" ♥️ का साथ दिमित्री सोश्निकोभ द्वारा लेखिएको हो।


अस्वीकरण:
यो दस्तावेज़ AI अनुवाद सेवा Co-op Translator प्रयोग गरेर अनुवाद गरिएको छ। हामी शुद्धताको लागि प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादमा त्रुटिहरू वा अशुद्धताहरू हुन सक्छ। यसको मूल भाषा मा रहेको मूल दस्तावेज़लाई आधिकारिक स्रोत मानिनुपर्छ। महत्वपूर्ण जानकारीको लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याको लागि हामी जिम्मेवार हुने छैनौं।