You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
ML-For-Beginners/translations/ta/8-Reinforcement
localizeflow[bot] 2bc4085ea6
chore(i18n): sync translations with latest source changes (chunk 2/6, 473 changes)
3 weeks ago
..
1-QLearning chore(i18n): sync translations with latest source changes (chunk 2/6, 473 changes) 3 weeks ago
2-Gym chore(i18n): sync translations with latest source changes (chunk 2/6, 473 changes) 3 weeks ago
README.md chore(i18n): sync translations with latest source changes (chunk 2/6, 473 changes) 3 weeks ago

README.md

அறிமுகம்: பலகூறு கற்றல்

பலகூறு கற்றல் (Reinforcement Learning, RL) என்பது மேற்பார்வை கற்றல் மற்றும் தன்னிச்சை கற்றலுக்கு அடுத்ததாகக் காணப்படும் அடிப்படை இயந்திரக் கற்றல் முறைகளில் ஒன்றாகும். RL என்பது முடிவுகளைப் பற்றியது: சரியான முடிவுகளை எடுப்பது அல்லது குறைந்தபட்சம் அவற்றிலிருந்து கற்றுக்கொள்வது.

உங்கள் கற்பனைக்கு ஒரு சோதனைச் சூழல், உதாரணமாக பங்கு சந்தை உள்ளது என்று நினைக்கவும். நீங்கள் ஒரு குறிப்பிட்ட விதிமுறையை விதிக்கும்போது என்ன நடக்கும்? இது நேர்மறையான அல்லது எதிர்மறையான விளைவுகளை ஏற்படுத்துமா? ஏதேனும் எதிர்மறையானது நிகழ்ந்தால், நீங்கள் அந்த _எதிர்மறை பலகூறு_யை எடுத்துக்கொண்டு, அதிலிருந்து கற்றுக்கொண்டு, பாதையை மாற்ற வேண்டும். இது ஒரு நேர்மறை விளைவாக இருந்தால், நீங்கள் அந்த _நேர்மறை பலகூறு_யை மேம்படுத்த வேண்டும்.

பீட்டர் மற்றும் ஓநாய்

பீட்டர் மற்றும் அவரது நண்பர்கள் பசிக்கொண்டு இருக்கும் ஓநாயைத் தப்பிக்க வேண்டும்! படம்: ஜென் லூப்பர்

பிராந்திய தலைப்பு: பீட்டர் மற்றும் ஓநாய் (ரஷ்யா)

பீட்டர் மற்றும் ஓநாய் என்பது ரஷ்ய இசையமைப்பாளர் செர்கேய் புரோகோபியெவ் எழுதிய ஒரு இசை கதை. இக்கதையில் இளம் முன்னோடி பீட்டர், தைரியமாக தனது வீட்டிலிருந்து காடுக்குள் சென்று ஓநாயை விரட்ட முயற்சிக்கிறார். இந்தப் பகுதியில், பீட்டருக்கு உதவ இயந்திரக் கற்றல் ஆல்காரிதங்களை பயிற்சி செய்யப் போகிறோம்:

  • சுற்றியுள்ள பகுதியை ஆராய்ந்து, சிறந்த வழிசெலுத்தல் வரைபடத்தை உருவாக்குதல்.
  • ஸ்கேட் போர்டைப் பயன்படுத்துவது மற்றும் அதில் சமநிலையைப் பேணுவது கற்றுக்கொள்வது, வேகமாகச் செல்ல.

பீட்டர் மற்றும் ஓநாய்

🎥 மேலே உள்ள படத்தை கிளிக் செய்து புரோகோபியெவின் பீட்டர் மற்றும் ஓநாயை கேட்கவும்

பலகூறு கற்றல்

முந்தைய பகுதிகளில், நீங்கள் இயந்திரக் கற்றல் பிரச்சினைகளின் இரண்டு உதாரணங்களைப் பார்த்தீர்கள்:

  • மேற்பார்வை கற்றல், இதில் நாம் தீர்வுகளைத் தரும் தரவுத்தொகுப்புகளைப் பயன்படுத்துகிறோம். வகைப்படுத்தல் மற்றும் மீள்பார்வை ஆகியவை மேற்பார்வை கற்றல் பணிகள்.
  • தன்னிச்சை கற்றல், இதில் நாம் குறிச்சொற்களுடன் கூடிய பயிற்சி தரவுகளைப் பெறவில்லை. தன்னிச்சை கற்றலின் முக்கிய உதாரணம் குழுமம் அமைத்தல்.

இந்தப் பகுதியில், குறிச்சொற்களுடன் கூடிய பயிற்சி தரவுகளைத் தேவையில்லாமல் ஒரு புதிய கற்றல் பிரச்சினையை அறிமுகப்படுத்தப் போகிறோம். இத்தகைய பிரச்சினைகளின் சில வகைகள் உள்ளன:

  • அரை-மேற்பார்வை கற்றல், இதில் அதிக அளவிலான குறிச்சொற்களற்ற தரவுகளை மாடலை முன்பயிற்சி செய்ய பயன்படுத்தலாம்.
  • பலகூறு கற்றல், இதில் ஒரு முகவர் (agent) சோதனைச் சூழலில் செயல்படுவதன் மூலம் எப்படி நடந்து கொள்ள வேண்டும் என்பதை கற்றுக்கொள்கிறார்.

உதாரணம் - கணினி விளையாட்டு

நீங்கள் ஒரு கணினியை ஒரு விளையாட்டை விளையாட கற்றுக்கொடுக்க விரும்புகிறீர்கள் என்று நினைக்கவும், உதாரணமாக சதுரங்கம் அல்லது சூப்பர் மாரியோ. கணினி ஒரு விளையாட்டை விளையாட, விளையாட்டின் ஒவ்வொரு நிலைமையிலும் எந்த நகர்வை செய்ய வேண்டும் என்பதை கணிக்க வேண்டும். இது ஒரு வகைப்படுத்தல் பிரச்சினையாகத் தோன்றினாலும், அது இல்லை - ஏனெனில் நமக்கு நிலைகள் மற்றும் தொடர்புடைய செயல்களுடன் கூடிய தரவுத்தொகுப்பு இல்லை. சதுரங்க போட்டிகள் அல்லது சூப்பர் மாரியோ விளையாடும் வீரர்களின் பதிவுகள் போன்ற தரவுகள் இருந்தாலும், அவை போதுமான அளவிலான நிலைகளை உள்ளடக்காது.

மாறாக, பலகூறு கற்றல் (RL) என்பது கணினியை பலமுறை விளையாடச் செய்வது மற்றும் விளைவுகளைப் பார்வையிடுவது என்ற கருத்தில் அடிப்படையாக உள்ளது. எனவே, பலகூறு கற்றலைப் பயன்படுத்த, நமக்கு இரண்டு விஷயங்கள் தேவை:

  • ஒரு சூழல் மற்றும் ஒரு சிமுலேட்டர், இது ஒரு விளையாட்டை பலமுறை விளையாட அனுமதிக்கும். இந்த சிமுலேட்டர் அனைத்து விளையாட்டு விதிகளையும், நிலைகள் மற்றும் செயல்களையும் வரையறுக்கும்.

  • ஒரு வெகுமதி செயல்பாடு, இது ஒவ்வொரு நகர்வு அல்லது விளையாட்டின் போது நாங்கள் எவ்வளவு சிறப்பாக செயல்பட்டோம் என்பதைச் சொல்வது.

மற்ற இயந்திரக் கற்றல் வகைகளுக்கும் RL-க்கும் உள்ள முக்கிய வித்தியாசம் என்னவென்றால், RL-ல் நாம் பொதுவாக விளையாட்டை முடிக்கும்வரை வெற்றி அல்லது தோல்வி என்பதை அறிய முடியாது. எனவே, ஒரு குறிப்பிட்ட நகர்வு தனியாக நல்லது அல்லது கெட்டது என்று சொல்ல முடியாது - நாங்கள் வெகுமதியை விளையாட்டின் முடிவில் மட்டுமே பெறுகிறோம். மேலும், நிச்சயமற்ற சூழல்களில் ஒரு மாடலை பயிற்சி செய்ய அனுமதிக்கும் ஆல்காரிதங்களை வடிவமைப்பதே நமது நோக்கம். Q-learning எனப்படும் ஒரு RL ஆல்காரிதத்தைப் பற்றி நாம் கற்றுக்கொள்வோம்.

பாடங்கள்

  1. பலகூறு கற்றல் மற்றும் Q-Learning அறிமுகம்
  2. ஒரு ஜிம் சிமுலேஷன் சூழலைப் பயன்படுத்துதல்

நன்றி

"பலகூறு கற்றலுக்கான அறிமுகம்" ♥️ உடன் டிமிட்ரி சோஷ்னிகோவ் எழுதியது.


குறிப்பு:
இந்த ஆவணம் Co-op Translator என்ற AI மொழிபெயர்ப்பு சேவையைப் பயன்படுத்தி மொழிபெயர்க்கப்பட்டுள்ளது. நாங்கள் துல்லியத்திற்காக முயற்சிக்கின்றோம், ஆனால் தானியக்க மொழிபெயர்ப்புகளில் பிழைகள் அல்லது தவறுகள் இருக்கக்கூடும் என்பதை தயவுசெய்து கவனத்தில் கொள்ளுங்கள். அதன் தாய்மொழியில் உள்ள மூல ஆவணம் அதிகாரப்பூர்வ ஆதாரமாக கருதப்பட வேண்டும். முக்கியமான தகவல்களுக்கு, தொழில்முறை மனித மொழிபெயர்ப்பு பரிந்துரைக்கப்படுகிறது. இந்த மொழிபெயர்ப்பைப் பயன்படுத்துவதால் ஏற்படும் எந்த தவறான புரிதல்கள் அல்லது தவறான விளக்கங்களுக்கு நாங்கள் பொறுப்பல்ல.