You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
ML-For-Beginners/translations/ml/8-Reinforcement
localizeflow[bot] 2bc4085ea6
chore(i18n): sync translations with latest source changes (chunk 2/6, 473 changes)
2 weeks ago
..
1-QLearning chore(i18n): sync translations with latest source changes (chunk 2/6, 473 changes) 2 weeks ago
2-Gym chore(i18n): sync translations with latest source changes (chunk 2/6, 473 changes) 2 weeks ago
README.md chore(i18n): sync translations with latest source changes (chunk 2/6, 473 changes) 2 weeks ago

README.md

റീഇൻഫോഴ്‌സ്‌മെന്റ് ലേണിങ്ങിലേക്ക് പരിചയം

റീഇൻഫോഴ്‌സ്‌മെന്റ് ലേണിംഗ്, RL, സൂപ്പർവൈസ്ഡ് ലേണിംഗിനും അൺസൂപ്പർവൈസ്ഡ് ലേണിംഗിനും അടുത്തുള്ള അടിസ്ഥാന മെഷീൻ ലേണിംഗ് പാരഡൈംസ് ഒന്നായി കാണപ്പെടുന്നു. RL തീരുമാനങ്ങളുമായി ബന്ധപ്പെട്ടതാണ്: ശരിയായ തീരുമാനങ്ങൾ നൽകുക അല്ലെങ്കിൽ കുറഞ്ഞത് അവയിൽ നിന്ന് പഠിക്കുക.

നിങ്ങൾക്ക് സ്റ്റോക്ക് മാർക്കറ്റ് പോലൊരു സിമുലേറ്റഡ് പരിസ്ഥിതി ഉണ്ടെന്ന് കരുതുക. ഒരു നിശ്ചിത നിയന്ത്രണം ഏർപ്പെടുത്തുകയാണെങ്കിൽ എന്ത് സംഭവിക്കും? അത് പോസിറ്റീവ് ഫലമോ നെഗറ്റീവ് ഫലമോ ഉണ്ടാക്കുമോ? എന്തെങ്കിലും നെഗറ്റീവ് സംഭവിച്ചാൽ, നിങ്ങൾക്ക് ഈ നെഗറ്റീവ് റീഇൻഫോഴ്‌സ്‌മെന്റ് സ്വീകരിച്ച് അതിൽ നിന്ന് പഠിച്ച് ദിശ മാറ്റണം. അത് പോസിറ്റീവ് ഫലമായാൽ, നിങ്ങൾക്ക് ആ പോസിറ്റീവ് റീഇൻഫോഴ്‌സ്‌മെന്റ് അടിസ്ഥാനമാക്കി മുന്നോട്ട് പോകണം.

peter and the wolf

പീറ്ററും അവന്റെ സുഹൃത്തുക്കളും വിശപ്പുള്ള വുൾഫിൽ നിന്ന് രക്ഷപ്പെടണം! ചിത്രം Jen Looper എന്നവന്റെതാണ്

പ്രാദേശിക വിഷയം: പീറ്ററും വുൾഫും (റഷ്യ)

Peter and the Wolf റഷ്യൻ സംഗീതസംവിധായകൻ Sergei Prokofiev എഴുതിയ ഒരു സംഗീതപരമായ പഞ്ചതന്ത്രകഥയാണ്. ഇത് യുവ പയനിയർ പീറ്ററിനെക്കുറിച്ചുള്ള കഥയാണ്, അവൻ ധൈര്യത്തോടെ വീട്ടിൽ നിന്ന് കാട്ടിലെ തുറസ്സിലേക്ക് വുൾഫിനെ പിന്തുടരാൻ പോകുന്നു. ഈ വിഭാഗത്തിൽ, പീറ്ററിന് സഹായകമായ മെഷീൻ ലേണിംഗ് ആൽഗോരിതങ്ങൾ പരിശീലിപ്പിക്കും:

  • പരിസര പ്രദേശം അന്വേഷിച്ച് മികച്ച നാവിഗേഷൻ മാപ്പ് നിർമ്മിക്കുക
  • സ്കേറ്റ്ബോർഡ് ഉപയോഗിച്ച് അതിൽ ബാലൻസ് പിടിച്ച് വേഗത്തിൽ ചലിക്കാൻ പഠിക്കുക.

Peter and the Wolf

🎥 മുകളിൽ കാണുന്ന ചിത്രത്തിൽ ക്ലിക്ക് ചെയ്ത് പ്രൊകോഫിയേവിന്റെ പീറ്ററും വുൾഫും കേൾക്കൂ

റീഇൻഫോഴ്‌സ്‌മെന്റ് ലേണിംഗ്

മുൻവകുപ്പുകളിൽ, നിങ്ങൾക്ക് മെഷീൻ ലേണിംഗ് പ്രശ്നങ്ങളുടെ രണ്ട് ഉദാഹരണങ്ങൾ കാണിച്ചിട്ടുണ്ട്:

  • സൂപ്പർവൈസ്ഡ്, ഇവിടെ നമുക്ക് പ്രശ്നം പരിഹരിക്കാൻ സാമ്പിൾ പരിഹാരങ്ങൾ സൂചിപ്പിക്കുന്ന ഡാറ്റാസെറ്റുകൾ ഉണ്ട്. ക്ലാസിഫിക്കേഷൻയും റെഗ്രഷൻയും സൂപ്പർവൈസ്ഡ് ലേണിംഗ് ടാസ്കുകളാണ്.
  • അൺസൂപ്പർവൈസ്ഡ്, ഇവിടെ ലേബൽ ചെയ്ത പരിശീലന ഡാറ്റ ഇല്ല. അൺസൂപ്പർവൈസ്ഡ് ലേണിംഗിന്റെ പ്രധാന ഉദാഹരണം ക്ലസ്റ്ററിംഗ് ആണ്.

ഈ വിഭാഗത്തിൽ, ലേബൽ ചെയ്ത പരിശീലന ഡാറ്റ ആവശ്യമില്ലാത്ത പുതിയ തരത്തിലുള്ള ലേണിംഗ് പ്രശ്നം പരിചയപ്പെടുത്തും. ഇത്തരം പ്രശ്നങ്ങളുടെ പല തരങ്ങളുണ്ട്:

ഉദാഹരണം - കമ്പ്യൂട്ടർ ഗെയിം

നിങ്ങൾക്ക് ഒരു കമ്പ്യൂട്ടറിനെ ചെസ് പോലുള്ള ഗെയിം കളിക്കാൻ പഠിപ്പിക്കണമെന്ന് കരുതുക, അല്ലെങ്കിൽ സൂപ്പർ മാരിയോ പോലുള്ളത്. കമ്പ്യൂട്ടർ ഗെയിം കളിക്കാൻ, ഓരോ ഗെയിം സ്റ്റേറ്റിലും ഏത് നീക്കം ചെയ്യണമെന്ന് പ്രവചിക്കണം. ഇത് ക്ലാസിഫിക്കേഷൻ പ്രശ്നം പോലെ തോന്നിയേക്കാം, പക്ഷേ അത് അല്ല - കാരണം നമുക്ക് സ്റ്റേറ്റുകളും അനുബന്ധ പ്രവർത്തനങ്ങളും ഉള്ള ഡാറ്റാസെറ്റ് ഇല്ല. നിലവിലുള്ള ചെസ് മത്സരങ്ങൾ അല്ലെങ്കിൽ സൂപ്പർ മാരിയോ കളിക്കുന്ന കളിക്കാരുടെ റെക്കോർഡുകൾ പോലുള്ള ചില ഡാറ്റ ഉണ്ടാകാം, പക്ഷേ ആ ഡാറ്റ സാധ്യതയുള്ള സ്റ്റേറ്റുകളുടെ വലിയ എണ്ണം മതിയായ രീതിയിൽ ഉൾക്കൊള്ളില്ല.

നിലവിലുള്ള ഗെയിം ഡാറ്റ അന്വേഷിക്കുന്നതിന് പകരം, റീഇൻഫോഴ്‌സ്‌മെന്റ് ലേണിംഗ് (RL) കമ്പ്യൂട്ടർ പല തവണ കളിക്കട്ടെ എന്ന ആശയത്തെ അടിസ്ഥാനമാക്കുന്നു, ഫലങ്ങൾ നിരീക്ഷിച്ച്. അതിനാൽ, റീഇൻഫോഴ്‌സ്‌മെന്റ് ലേണിംഗ് പ്രയോഗിക്കാൻ, നമുക്ക് രണ്ട് കാര്യങ്ങൾ വേണം:

  • ഒരു പരിസ്ഥിതിയും ഒരു സിമുലേറ്ററും, ഗെയിം പല തവണ കളിക്കാൻ അനുവദിക്കുന്നവ. ഈ സിമുലേറ്റർ എല്ലാ ഗെയിം നിയമങ്ങളും സാധ്യതയുള്ള സ്റ്റേറ്റുകളും പ്രവർത്തനങ്ങളും നിർവചിക്കും.

  • ഒരു റിവാർഡ് ഫംഗ്ഷൻ, ഓരോ നീക്കത്തിലും അല്ലെങ്കിൽ ഗെയിം മുഴുവൻ എത്രത്തോളം നന്നായി ചെയ്തുവെന്ന് പറയുന്നവ.

മറ്റു മെഷീൻ ലേണിംഗ് തരംകളിൽ നിന്നും RL-ന്റെ പ്രധാന വ്യത്യാസം, RL-ൽ സാധാരണയായി ഗെയിം അവസാനിക്കാതെ നമുക്ക് ജയിച്ചോ തോറ്റോ എന്ന് അറിയില്ല എന്നതാണ്. അതിനാൽ, ഒരു പ്രത്യേക നീക്കം മാത്രം നല്ലതാണോ അല്ലയോ എന്ന് പറയാൻ കഴിയില്ല - ഗെയിം അവസാനം മാത്രമേ നമുക്ക് റിവാർഡ് ലഭിക്കൂ. നമ്മുടെ ലക്ഷ്യം അനിശ്ചിത സാഹചര്യങ്ങളിൽ മോഡൽ പരിശീലിപ്പിക്കാൻ സഹായിക്കുന്ന ആൽഗോരിതങ്ങൾ രൂപകൽപ്പന ചെയ്യുകയാണ്. നാം Q-ലേണിംഗ് എന്ന RL ആൽഗോരിതം പഠിക്കും.

പാഠങ്ങൾ

  1. റീഇൻഫോഴ്‌സ്‌മെന്റ് ലേണിംഗും Q-ലേണിംഗും പരിചയം
  2. ജിം സിമുലേഷൻ പരിസ്ഥിതി ഉപയോഗിക്കൽ

ക്രെഡിറ്റുകൾ

"Introduction to Reinforcement Learning" ♥️ ഉപയോഗിച്ച് എഴുതിയത് Dmitry Soshnikov ആണ്


അസൂയാ:
ഈ രേഖ AI വിവർത്തന സേവനം Co-op Translator ഉപയോഗിച്ച് വിവർത്തനം ചെയ്തതാണ്. നാം കൃത്യതയ്ക്ക് ശ്രമിച്ചെങ്കിലും, സ്വയം പ്രവർത്തിക്കുന്ന വിവർത്തനങ്ങളിൽ പിശകുകൾ അല്ലെങ്കിൽ തെറ്റുകൾ ഉണ്ടാകാമെന്ന് ദയവായി ശ്രദ്ധിക്കുക. അതിന്റെ മാതൃഭാഷയിലുള്ള യഥാർത്ഥ രേഖയാണ് പ്രാമാണികമായ ഉറവിടം എന്ന് പരിഗണിക്കേണ്ടതാണ്. നിർണായക വിവരങ്ങൾക്ക്, പ്രൊഫഷണൽ മനുഷ്യ വിവർത്തനം ശുപാർശ ചെയ്യപ്പെടുന്നു. ഈ വിവർത്തനം ഉപയോഗിക്കുന്നതിൽ നിന്നുണ്ടാകുന്ന ഏതെങ്കിലും തെറ്റിദ്ധാരണകൾക്കോ തെറ്റായ വ്യാഖ്യാനങ്ങൾക്കോ ഞങ്ങൾ ഉത്തരവാദികളല്ല.