You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
ML-For-Beginners/translations/ta/8-Reinforcement
localizeflow[bot] 081f029c0d
chore(i18n): sync translations with latest source changes (chunk 1/1, 300 changes)
4 months ago
..
1-QLearning chore(i18n): sync translations with latest source changes (chunk 1/1, 300 changes) 4 months ago
2-Gym chore(i18n): sync translations with latest source changes (chunk 1/1, 300 changes) 4 months ago
README.md chore(i18n): sync translations with latest source changes (chunk 1/1, 300 changes) 4 months ago

README.md

அறிமுகம்: பலகூறு கற்றல்

பலகூறு கற்றல் (Reinforcement Learning, RL) என்பது மேற்பார்வை கற்றல் மற்றும் தன்னிச்சை கற்றலுக்கு அடுத்ததாகக் காணப்படும் அடிப்படை இயந்திரக் கற்றல் முறைகளில் ஒன்றாகும். RL என்பது முடிவுகளைப் பற்றியது: சரியான முடிவுகளை எடுப்பது அல்லது குறைந்தபட்சம் அவற்றிலிருந்து கற்றுக்கொள்வது.

உங்கள் கற்பனைக்கு ஒரு சோதனைச் சூழல், உதாரணமாக பங்கு சந்தை உள்ளது என்று நினைக்கவும். நீங்கள் ஒரு குறிப்பிட்ட விதிமுறையை விதிக்கும்போது என்ன நடக்கும்? இது நேர்மறையான அல்லது எதிர்மறையான விளைவுகளை ஏற்படுத்துமா? ஏதேனும் எதிர்மறையானது நிகழ்ந்தால், நீங்கள் அந்த _எதிர்மறை பலகூறு_யை எடுத்துக்கொண்டு, அதிலிருந்து கற்றுக்கொண்டு, பாதையை மாற்ற வேண்டும். இது ஒரு நேர்மறை விளைவாக இருந்தால், நீங்கள் அந்த _நேர்மறை பலகூறு_யை மேம்படுத்த வேண்டும்.

பீட்டர் மற்றும் ஓநாய்

பீட்டர் மற்றும் அவரது நண்பர்கள் பசிக்கொண்டு இருக்கும் ஓநாயைத் தப்பிக்க வேண்டும்! படம்: ஜென் லூப்பர்

பிராந்திய தலைப்பு: பீட்டர் மற்றும் ஓநாய் (ரஷ்யா)

பீட்டர் மற்றும் ஓநாய் என்பது ரஷ்ய இசையமைப்பாளர் செர்கேய் புரோகோபியெவ் எழுதிய ஒரு இசை கதை. இக்கதையில் இளம் முன்னோடி பீட்டர், தைரியமாக தனது வீட்டிலிருந்து காடுக்குள் சென்று ஓநாயை விரட்ட முயற்சிக்கிறார். இந்தப் பகுதியில், பீட்டருக்கு உதவ இயந்திரக் கற்றல் ஆல்காரிதங்களை பயிற்சி செய்யப் போகிறோம்:

  • சுற்றியுள்ள பகுதியை ஆராய்ந்து, சிறந்த வழிசெலுத்தல் வரைபடத்தை உருவாக்குதல்.
  • ஸ்கேட் போர்டைப் பயன்படுத்துவது மற்றும் அதில் சமநிலையைப் பேணுவது கற்றுக்கொள்வது, வேகமாகச் செல்ல.

பீட்டர் மற்றும் ஓநாய்

🎥 மேலே உள்ள படத்தை கிளிக் செய்து புரோகோபியெவின் பீட்டர் மற்றும் ஓநாயை கேட்கவும்

பலகூறு கற்றல்

முந்தைய பகுதிகளில், நீங்கள் இயந்திரக் கற்றல் பிரச்சினைகளின் இரண்டு உதாரணங்களைப் பார்த்தீர்கள்:

  • மேற்பார்வை கற்றல், இதில் நாம் தீர்வுகளைத் தரும் தரவுத்தொகுப்புகளைப் பயன்படுத்துகிறோம். வகைப்படுத்தல் மற்றும் மீள்பார்வை ஆகியவை மேற்பார்வை கற்றல் பணிகள்.
  • தன்னிச்சை கற்றல், இதில் நாம் குறிச்சொற்களுடன் கூடிய பயிற்சி தரவுகளைப் பெறவில்லை. தன்னிச்சை கற்றலின் முக்கிய உதாரணம் குழுமம் அமைத்தல்.

இந்தப் பகுதியில், குறிச்சொற்களுடன் கூடிய பயிற்சி தரவுகளைத் தேவையில்லாமல் ஒரு புதிய கற்றல் பிரச்சினையை அறிமுகப்படுத்தப் போகிறோம். இத்தகைய பிரச்சினைகளின் சில வகைகள் உள்ளன:

  • அரை-மேற்பார்வை கற்றல், இதில் அதிக அளவிலான குறிச்சொற்களற்ற தரவுகளை மாடலை முன்பயிற்சி செய்ய பயன்படுத்தலாம்.
  • பலகூறு கற்றல், இதில் ஒரு முகவர் (agent) சோதனைச் சூழலில் செயல்படுவதன் மூலம் எப்படி நடந்து கொள்ள வேண்டும் என்பதை கற்றுக்கொள்கிறார்.

உதாரணம் - கணினி விளையாட்டு

நீங்கள் ஒரு கணினியை ஒரு விளையாட்டை விளையாட கற்றுக்கொடுக்க விரும்புகிறீர்கள் என்று நினைக்கவும், உதாரணமாக சதுரங்கம் அல்லது சூப்பர் மாரியோ. கணினி ஒரு விளையாட்டை விளையாட, விளையாட்டின் ஒவ்வொரு நிலைமையிலும் எந்த நகர்வை செய்ய வேண்டும் என்பதை கணிக்க வேண்டும். இது ஒரு வகைப்படுத்தல் பிரச்சினையாகத் தோன்றினாலும், அது இல்லை - ஏனெனில் நமக்கு நிலைகள் மற்றும் தொடர்புடைய செயல்களுடன் கூடிய தரவுத்தொகுப்பு இல்லை. சதுரங்க போட்டிகள் அல்லது சூப்பர் மாரியோ விளையாடும் வீரர்களின் பதிவுகள் போன்ற தரவுகள் இருந்தாலும், அவை போதுமான அளவிலான நிலைகளை உள்ளடக்காது.

மாறாக, பலகூறு கற்றல் (RL) என்பது கணினியை பலமுறை விளையாடச் செய்வது மற்றும் விளைவுகளைப் பார்வையிடுவது என்ற கருத்தில் அடிப்படையாக உள்ளது. எனவே, பலகூறு கற்றலைப் பயன்படுத்த, நமக்கு இரண்டு விஷயங்கள் தேவை:

  • ஒரு சூழல் மற்றும் ஒரு சிமுலேட்டர், இது ஒரு விளையாட்டை பலமுறை விளையாட அனுமதிக்கும். இந்த சிமுலேட்டர் அனைத்து விளையாட்டு விதிகளையும், நிலைகள் மற்றும் செயல்களையும் வரையறுக்கும்.

  • ஒரு வெகுமதி செயல்பாடு, இது ஒவ்வொரு நகர்வு அல்லது விளையாட்டின் போது நாங்கள் எவ்வளவு சிறப்பாக செயல்பட்டோம் என்பதைச் சொல்வது.

மற்ற இயந்திரக் கற்றல் வகைகளுக்கும் RL-க்கும் உள்ள முக்கிய வித்தியாசம் என்னவென்றால், RL-ல் நாம் பொதுவாக விளையாட்டை முடிக்கும்வரை வெற்றி அல்லது தோல்வி என்பதை அறிய முடியாது. எனவே, ஒரு குறிப்பிட்ட நகர்வு தனியாக நல்லது அல்லது கெட்டது என்று சொல்ல முடியாது - நாங்கள் வெகுமதியை விளையாட்டின் முடிவில் மட்டுமே பெறுகிறோம். மேலும், நிச்சயமற்ற சூழல்களில் ஒரு மாடலை பயிற்சி செய்ய அனுமதிக்கும் ஆல்காரிதங்களை வடிவமைப்பதே நமது நோக்கம். Q-learning எனப்படும் ஒரு RL ஆல்காரிதத்தைப் பற்றி நாம் கற்றுக்கொள்வோம்.

பாடங்கள்

  1. பலகூறு கற்றல் மற்றும் Q-Learning அறிமுகம்
  2. ஒரு ஜிம் சிமுலேஷன் சூழலைப் பயன்படுத்துதல்

நன்றி

"பலகூறு கற்றலுக்கான அறிமுகம்" ♥️ உடன் டிமிட்ரி சோஷ்னிகோவ் எழுதியது.


குறிப்பு:
இந்த ஆவணம் Co-op Translator என்ற AI மொழிபெயர்ப்பு சேவையைப் பயன்படுத்தி மொழிபெயர்க்கப்பட்டுள்ளது. நாங்கள் துல்லியத்திற்காக முயற்சிக்கின்றோம், ஆனால் தானியக்க மொழிபெயர்ப்புகளில் பிழைகள் அல்லது தவறுகள் இருக்கக்கூடும் என்பதை தயவுசெய்து கவனத்தில் கொள்ளுங்கள். அதன் தாய்மொழியில் உள்ள மூல ஆவணம் அதிகாரப்பூர்வ ஆதாரமாக கருதப்பட வேண்டும். முக்கியமான தகவல்களுக்கு, தொழில்முறை மனித மொழிபெயர்ப்பு பரிந்துரைக்கப்படுகிறது. இந்த மொழிபெயர்ப்பைப் பயன்படுத்துவதால் ஏற்படும் எந்த தவறான புரிதல்கள் அல்லது தவறான விளக்கங்களுக்கு நாங்கள் பொறுப்பல்ல.