History

leestott f915efe2b4 🌐 Update translations via Co-op Translator		2 weeks ago
..
1-QLearning	🌐 Update translations via Co-op Translator	2 weeks ago
2-Gym	🌐 Update translations via Co-op Translator	2 weeks ago
README.md	🌐 Update translations via Co-op Translator	3 weeks ago

README.md

सुदृढीकरण शिक्षाको परिचय

सुदृढीकरण शिक्षा, RL, लाई पर्यवेक्षित शिक्षा र अप्रत्यक्ष शिक्षाको साथमा आधारभूत मेसिन शिक्षण दृष्टान्तहरूमध्ये एक मानिन्छ। RL निर्णयहरूबारे हो: सही निर्णयहरू प्रदान गर्ने वा कम्तिमा तिनबाट सिक्ने।

कल्पना गर्नुहोस् कि तपाईंसँग स्टक बजार जस्तो सिमुलेट गरिएको वातावरण छ। यदि तपाईंले कुनै निश्चित नियम लागू गर्नुभयो भने के हुन्छ? के यसले सकारात्मक वा नकारात्मक प्रभाव पार्छ? यदि केही नकारात्मक हुन्छ भने, तपाईंले यो नकारात्मक सुदृढीकरण लिनुपर्छ, यसबाट सिक्नुपर्छ, र मार्ग परिवर्तन गर्नुपर्छ। यदि यो सकारात्मक परिणाम हो भने, तपाईंले त्यस सकारात्मक सुदृढीकरण मा निर्माण गर्नुपर्छ।

पिटर र उनका साथीहरूले भोकाएको भेडियाबाट भाग्नुपर्छ! छवि जेन लूपर द्वारा

क्षेत्रीय विषय: पिटर र भेडिया (रूस)

पिटर र भेडिया एक सङ्गीतात्मक परी कथा हो, जसलाई रूसी सङ्गीतकार सर्गेई प्रोकोफिएभ ले लेखेका हुन्। यो युवा अग्रगामी पिटरको कथा हो, जसले साहसपूर्वक आफ्नो घरबाट बाहिर निस्केर जंगलमा भेडियालाई लखेट्न जान्छ। यस खण्डमा, हामी मेसिन शिक्षण एल्गोरिदमहरूलाई प्रशिक्षण दिनेछौं जसले पिटरलाई सहयोग गर्नेछ:

अन्वेषण गर्नुहोस् वरपरको क्षेत्र र एक उत्तम नेभिगेसन नक्सा निर्माण गर्नुहोस्।
सिक्नुहोस् स्केटबोर्ड कसरी प्रयोग गर्ने र यसमा सन्तुलन राख्ने, ताकि छिटो हिँड्न सकियोस्।

🎥 माथिको छविमा क्लिक गरेर प्रोकोफिएभद्वारा पिटर र भेडिया सुन्नुहोस्

सुदृढीकरण शिक्षा

अघिल्ला खण्डहरूमा, तपाईंले मेसिन शिक्षण समस्याका दुई उदाहरणहरू देख्नुभएको छ:

पर्यवेक्षित, जहाँ हामीसँग समस्या समाधान गर्न नमूना समाधानहरू सुझाव दिने डाटासेटहरू हुन्छन्। वर्गीकरण र पुनरावृत्ति पर्यवेक्षित शिक्षण कार्यहरू हुन्।
अपर्यवेक्षित, जसमा हामीसँग लेबल गरिएको प्रशिक्षण डाटा हुँदैन। अप्रत्यक्ष शिक्षणको मुख्य उदाहरण समूह बनाउने हो।

यस खण्डमा, हामी तपाईंलाई नयाँ प्रकारको शिक्षण समस्यासँग परिचय गराउनेछौं जसलाई लेबल गरिएको प्रशिक्षण डाटाको आवश्यकता पर्दैन। यस्ता समस्याका विभिन्न प्रकारहरू छन्:

अर्ध-पर्यवेक्षित शिक्षा, जसमा हामीसँग धेरै अप्रत्यक्ष डाटा हुन्छ जुन मोडेललाई पूर्व-प्रशिक्षण गर्न प्रयोग गर्न सकिन्छ।
सुदृढीकरण शिक्षा, जसमा एक एजेन्टले कुनै सिमुलेट गरिएको वातावरणमा प्रयोग गरेर कसरी व्यवहार गर्ने भनेर सिक्छ।

उदाहरण - कम्प्युटर खेल

मानौं तपाईं कम्प्युटरलाई कुनै खेल खेल्न सिकाउन चाहनुहुन्छ, जस्तै चेस वा सुपर मारियो। कम्प्युटरले खेल खेल्नका लागि, हामीलाई प्रत्येक खेल अवस्थाहरूमा कुन चाल चाल्ने भनेर भविष्यवाणी गर्न आवश्यक छ। यो वर्गीकरण समस्याजस्तो देखिन सक्छ, तर यो होइन - किनभने हामीसँग अवस्थाहरू र तिनका सम्बन्धित कार्यहरूको डाटासेट छैन। यद्यपि हामीसँग केही डाटा हुन सक्छ, जस्तै चेस खेलहरूको रेकर्डिङ वा सुपर मारियो खेल्ने खेलाडीहरूको रेकर्डिङ, यो सम्भावना छ कि त्यो डाटाले पर्याप्त संख्यामा सम्भावित अवस्थाहरूलाई कभर गर्दैन।

अस्तित्वमा रहेको खेल डाटाको खोजी गर्ने सट्टा, सुदृढीकरण शिक्षा (RL) को आधारभूत विचार भनेको कम्प्युटरलाई धेरै पटक खेल खेल्न लगाउने र परिणामलाई अवलोकन गर्ने हो। त्यसैले, सुदृढीकरण शिक्षा लागू गर्न, हामीलाई दुई चीजहरू चाहिन्छ:

एउटा वातावरण र सिमुलेटर, जसले हामीलाई खेल धेरै पटक खेल्न अनुमति दिन्छ। यस सिमुलेटरले सबै खेलका नियमहरू साथै सम्भावित अवस्थाहरू र कार्यहरू परिभाषित गर्नेछ।
एउटा पुरस्कार कार्य, जसले हामीलाई प्रत्येक चाल वा खेलको क्रममा कत्तिको राम्रो गर्यौं भनेर बताउनेछ।

अन्य प्रकारका मेसिन शिक्षण र RL बीचको मुख्य भिन्नता भनेको RL मा हामी सामान्यतया खेल समाप्त नभएसम्म जित्यौं वा हार्यौं भनेर थाहा पाउँदैनौं। त्यसैले, हामी कुनै निश्चित चाल मात्र राम्रो हो कि होइन भनेर भन्न सक्दैनौं - हामीलाई खेलको अन्त्यमा मात्र पुरस्कार प्राप्त हुन्छ। र हाम्रो लक्ष्य भनेको अनिश्चित अवस्थाहरूमा मोडेललाई प्रशिक्षण दिन अनुमति दिने एल्गोरिदमहरू डिजाइन गर्नु हो। हामी Q-learning भनिने RL एल्गोरिदमबारे सिक्नेछौं।

पाठहरू

श्रेय

"सुदृढीकरण शिक्षाको परिचय" ♥️ का साथ दिमित्री सोश्निकोभ द्वारा लेखिएको हो।

अस्वीकरण:
यो दस्तावेज़ AI अनुवाद सेवा Co-op Translator प्रयोग गरेर अनुवाद गरिएको छ। हामी शुद्धताको लागि प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादमा त्रुटिहरू वा अशुद्धताहरू हुन सक्छ। यसको मूल भाषा मा रहेको मूल दस्तावेज़लाई आधिकारिक स्रोत मानिनुपर्छ। महत्वपूर्ण जानकारीको लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याको लागि हामी जिम्मेवार हुने छैनौं।