8.3 KiB
एक यथार्थपरक संसार
हाम्रो परिस्थितिमा, पीटर लगभग थकित वा भोकै नभई हिँड्न सक्थ्यो। एक यथार्थपरक संसारमा, उसले समय-समयमा बस्न र आराम गर्नुपर्ने हुन्छ, साथै आफूलाई खाना खुवाउनुपर्ने हुन्छ। निम्न नियमहरू लागू गरेर हाम्रो संसारलाई अझ यथार्थपरक बनाऔं:
- एक स्थानबाट अर्को स्थानमा सर्ने क्रममा, पीटरले ऊर्जा गुमाउँछ र केही थकान बढाउँछ।
- पीटरले स्याउ खाएर थप ऊर्जा प्राप्त गर्न सक्छ।
- पीटरले रुखको छेउमा वा घाँसमा आराम गरेर थकान हटाउन सक्छ (अर्थात्, रुख वा घाँस भएको बोर्ड स्थानमा हिँडेर - हरियो क्षेत्र)।
- पीटरले भेडिया खोज्न र मार्नुपर्ने हुन्छ।
- भेडिया मार्नको लागि, पीटरसँग निश्चित स्तरको ऊर्जा र थकान हुनुपर्छ, अन्यथा उसले युद्ध हार्छ।
निर्देशनहरू
notebook.ipynb नोटबुकलाई आफ्नो समाधानको सुरुवात बिन्दुको रूपमा प्रयोग गर्नुहोस्।
खेलका नियमहरू अनुसार माथिको पुरस्कार कार्यलाई संशोधन गर्नुहोस्, सुदृढीकरण सिकाइ एल्गोरिदम चलाएर खेल जित्ने उत्तम रणनीति सिक्नुहोस्, र खेल जित्ने र हार्ने संख्याको आधारमा आफ्नो एल्गोरिदमलाई र्यान्डम वाकसँग तुलना गर्नुहोस्।
Note: तपाईंको नयाँ संसारमा, अवस्था थप जटिल छ, र मानवको स्थानको अतिरिक्त थकान र ऊर्जा स्तरहरू पनि समावेश गर्दछ। तपाईंले अवस्थालाई (Board,energy,fatigue) को रूपमा टुपलको रूपमा प्रतिनिधित्व गर्न रोज्न सक्नुहुन्छ, वा अवस्थाको लागि कक्षा परिभाषित गर्न सक्नुहुन्छ (तपाईंले यसलाई
Board
बाट व्युत्पन्न गर्न चाहन सक्नुहुन्छ), वा rlboard.py भित्रको मूलBoard
कक्षालाई संशोधन गर्न सक्नुहुन्छ।
आफ्नो समाधानमा, कृपया र्यान्डम वाक रणनीतिका लागि जिम्मेवार कोड राख्नुहोस्, र अन्त्यमा आफ्नो एल्गोरिदमलाई र्यान्डम वाकसँग तुलना गर्नुहोस्।
Note: यसलाई काम गर्नका लागि तपाईंले हाइपरप्यारामिटरहरू समायोजन गर्न आवश्यक हुन सक्छ, विशेष गरी युगहरूको संख्या। किनभने खेलको सफलता (भेडियासँग लडाइँ) दुर्लभ घटना हो, तपाईंले धेरै लामो प्रशिक्षण समयको अपेक्षा गर्न सक्नुहुन्छ।
मूल्यांकन मापदण्ड
मापदण्ड | उत्कृष्ट | पर्याप्त | सुधार आवश्यक |
---|---|---|---|
नयाँ संसारका नियमहरूको परिभाषा, Q-Learning एल्गोरिदम र केही पाठ्य व्याख्याहरू सहित नोटबुक प्रस्तुत गरिएको छ। Q-Learning र्यान्डम वाकको तुलनामा परिणामहरूलाई उल्लेखनीय रूपमा सुधार गर्न सक्षम छ। | नोटबुक प्रस्तुत गरिएको छ, Q-Learning कार्यान्वयन गरिएको छ र र्यान्डम वाकको तुलनामा परिणामहरू सुधार गर्दछ, तर उल्लेखनीय रूपमा होइन; वा नोटबुक राम्रोसँग दस्तावेज गरिएको छैन र कोड राम्रो संरचित छैन। | संसारका नियमहरू पुनः परिभाषित गर्न केही प्रयास गरिएको छ, तर Q-Learning एल्गोरिदम काम गर्दैन, वा पुरस्कार कार्य पूर्ण रूपमा परिभाषित गरिएको छैन। |
अस्वीकरण:
यो दस्तावेज़ AI अनुवाद सेवा Co-op Translator प्रयोग गरेर अनुवाद गरिएको छ। हामी शुद्धताको लागि प्रयास गर्छौं, तर कृपया ध्यान दिनुहोस् कि स्वचालित अनुवादहरूमा त्रुटिहरू वा अशुद्धताहरू हुन सक्छ। यसको मूल भाषा मा रहेको मूल दस्तावेज़लाई आधिकारिक स्रोत मानिनुपर्छ। महत्वपूर्ण जानकारीको लागि, व्यावसायिक मानव अनुवाद सिफारिस गरिन्छ। यस अनुवादको प्रयोगबाट उत्पन्न हुने कुनै पनि गलतफहमी वा गलत व्याख्याको लागि हामी जिम्मेवार हुने छैनौं।