History

localizeflow[bot] 2bc4085ea6 chore(i18n): sync translations with latest source changes (chunk 2/6, 473 changes)		3 weeks ago
..
1-QLearning	chore(i18n): sync translations with latest source changes (chunk 2/6, 473 changes)	3 weeks ago
2-Gym	chore(i18n): sync translations with latest source changes (chunk 2/6, 473 changes)	3 weeks ago
README.md	chore(i18n): sync translations with latest source changes (chunk 2/6, 473 changes)	3 weeks ago

README.md

அறிமுகம்: பலகூறு கற்றல்

பலகூறு கற்றல் (Reinforcement Learning, RL) என்பது மேற்பார்வை கற்றல் மற்றும் தன்னிச்சை கற்றலுக்கு அடுத்ததாகக் காணப்படும் அடிப்படை இயந்திரக் கற்றல் முறைகளில் ஒன்றாகும். RL என்பது முடிவுகளைப் பற்றியது: சரியான முடிவுகளை எடுப்பது அல்லது குறைந்தபட்சம் அவற்றிலிருந்து கற்றுக்கொள்வது.

உங்கள் கற்பனைக்கு ஒரு சோதனைச் சூழல், உதாரணமாக பங்கு சந்தை உள்ளது என்று நினைக்கவும். நீங்கள் ஒரு குறிப்பிட்ட விதிமுறையை விதிக்கும்போது என்ன நடக்கும்? இது நேர்மறையான அல்லது எதிர்மறையான விளைவுகளை ஏற்படுத்துமா? ஏதேனும் எதிர்மறையானது நிகழ்ந்தால், நீங்கள் அந்த _எதிர்மறை பலகூறு_யை எடுத்துக்கொண்டு, அதிலிருந்து கற்றுக்கொண்டு, பாதையை மாற்ற வேண்டும். இது ஒரு நேர்மறை விளைவாக இருந்தால், நீங்கள் அந்த _நேர்மறை பலகூறு_யை மேம்படுத்த வேண்டும்.

பீட்டர் மற்றும் அவரது நண்பர்கள் பசிக்கொண்டு இருக்கும் ஓநாயைத் தப்பிக்க வேண்டும்! படம்: ஜென் லூப்பர்

பிராந்திய தலைப்பு: பீட்டர் மற்றும் ஓநாய் (ரஷ்யா)

பீட்டர் மற்றும் ஓநாய் என்பது ரஷ்ய இசையமைப்பாளர் செர்கேய் புரோகோபியெவ் எழுதிய ஒரு இசை கதை. இக்கதையில் இளம் முன்னோடி பீட்டர், தைரியமாக தனது வீட்டிலிருந்து காடுக்குள் சென்று ஓநாயை விரட்ட முயற்சிக்கிறார். இந்தப் பகுதியில், பீட்டருக்கு உதவ இயந்திரக் கற்றல் ஆல்காரிதங்களை பயிற்சி செய்யப் போகிறோம்:

சுற்றியுள்ள பகுதியை ஆராய்ந்து, சிறந்த வழிசெலுத்தல் வரைபடத்தை உருவாக்குதல்.
ஸ்கேட் போர்டைப் பயன்படுத்துவது மற்றும் அதில் சமநிலையைப் பேணுவது கற்றுக்கொள்வது, வேகமாகச் செல்ல.

🎥 மேலே உள்ள படத்தை கிளிக் செய்து புரோகோபியெவின் பீட்டர் மற்றும் ஓநாயை கேட்கவும்

பலகூறு கற்றல்

முந்தைய பகுதிகளில், நீங்கள் இயந்திரக் கற்றல் பிரச்சினைகளின் இரண்டு உதாரணங்களைப் பார்த்தீர்கள்:

மேற்பார்வை கற்றல், இதில் நாம் தீர்வுகளைத் தரும் தரவுத்தொகுப்புகளைப் பயன்படுத்துகிறோம். வகைப்படுத்தல் மற்றும் மீள்பார்வை ஆகியவை மேற்பார்வை கற்றல் பணிகள்.
தன்னிச்சை கற்றல், இதில் நாம் குறிச்சொற்களுடன் கூடிய பயிற்சி தரவுகளைப் பெறவில்லை. தன்னிச்சை கற்றலின் முக்கிய உதாரணம் குழுமம் அமைத்தல்.

இந்தப் பகுதியில், குறிச்சொற்களுடன் கூடிய பயிற்சி தரவுகளைத் தேவையில்லாமல் ஒரு புதிய கற்றல் பிரச்சினையை அறிமுகப்படுத்தப் போகிறோம். இத்தகைய பிரச்சினைகளின் சில வகைகள் உள்ளன:

அரை-மேற்பார்வை கற்றல், இதில் அதிக அளவிலான குறிச்சொற்களற்ற தரவுகளை மாடலை முன்பயிற்சி செய்ய பயன்படுத்தலாம்.
பலகூறு கற்றல், இதில் ஒரு முகவர் (agent) சோதனைச் சூழலில் செயல்படுவதன் மூலம் எப்படி நடந்து கொள்ள வேண்டும் என்பதை கற்றுக்கொள்கிறார்.

உதாரணம் - கணினி விளையாட்டு

நீங்கள் ஒரு கணினியை ஒரு விளையாட்டை விளையாட கற்றுக்கொடுக்க விரும்புகிறீர்கள் என்று நினைக்கவும், உதாரணமாக சதுரங்கம் அல்லது சூப்பர் மாரியோ. கணினி ஒரு விளையாட்டை விளையாட, விளையாட்டின் ஒவ்வொரு நிலைமையிலும் எந்த நகர்வை செய்ய வேண்டும் என்பதை கணிக்க வேண்டும். இது ஒரு வகைப்படுத்தல் பிரச்சினையாகத் தோன்றினாலும், அது இல்லை - ஏனெனில் நமக்கு நிலைகள் மற்றும் தொடர்புடைய செயல்களுடன் கூடிய தரவுத்தொகுப்பு இல்லை. சதுரங்க போட்டிகள் அல்லது சூப்பர் மாரியோ விளையாடும் வீரர்களின் பதிவுகள் போன்ற தரவுகள் இருந்தாலும், அவை போதுமான அளவிலான நிலைகளை உள்ளடக்காது.

மாறாக, பலகூறு கற்றல் (RL) என்பது கணினியை பலமுறை விளையாடச் செய்வது மற்றும் விளைவுகளைப் பார்வையிடுவது என்ற கருத்தில் அடிப்படையாக உள்ளது. எனவே, பலகூறு கற்றலைப் பயன்படுத்த, நமக்கு இரண்டு விஷயங்கள் தேவை:

ஒரு சூழல் மற்றும் ஒரு சிமுலேட்டர், இது ஒரு விளையாட்டை பலமுறை விளையாட அனுமதிக்கும். இந்த சிமுலேட்டர் அனைத்து விளையாட்டு விதிகளையும், நிலைகள் மற்றும் செயல்களையும் வரையறுக்கும்.
ஒரு வெகுமதி செயல்பாடு, இது ஒவ்வொரு நகர்வு அல்லது விளையாட்டின் போது நாங்கள் எவ்வளவு சிறப்பாக செயல்பட்டோம் என்பதைச் சொல்வது.

மற்ற இயந்திரக் கற்றல் வகைகளுக்கும் RL-க்கும் உள்ள முக்கிய வித்தியாசம் என்னவென்றால், RL-ல் நாம் பொதுவாக விளையாட்டை முடிக்கும்வரை வெற்றி அல்லது தோல்வி என்பதை அறிய முடியாது. எனவே, ஒரு குறிப்பிட்ட நகர்வு தனியாக நல்லது அல்லது கெட்டது என்று சொல்ல முடியாது - நாங்கள் வெகுமதியை விளையாட்டின் முடிவில் மட்டுமே பெறுகிறோம். மேலும், நிச்சயமற்ற சூழல்களில் ஒரு மாடலை பயிற்சி செய்ய அனுமதிக்கும் ஆல்காரிதங்களை வடிவமைப்பதே நமது நோக்கம். Q-learning எனப்படும் ஒரு RL ஆல்காரிதத்தைப் பற்றி நாம் கற்றுக்கொள்வோம்.

பாடங்கள்

நன்றி

"பலகூறு கற்றலுக்கான அறிமுகம்" ♥️ உடன் டிமிட்ரி சோஷ்னிகோவ் எழுதியது.

குறிப்பு:
இந்த ஆவணம் Co-op Translator என்ற AI மொழிபெயர்ப்பு சேவையைப் பயன்படுத்தி மொழிபெயர்க்கப்பட்டுள்ளது. நாங்கள் துல்லியத்திற்காக முயற்சிக்கின்றோம், ஆனால் தானியக்க மொழிபெயர்ப்புகளில் பிழைகள் அல்லது தவறுகள் இருக்கக்கூடும் என்பதை தயவுசெய்து கவனத்தில் கொள்ளுங்கள். அதன் தாய்மொழியில் உள்ள மூல ஆவணம் அதிகாரப்பூர்வ ஆதாரமாக கருதப்பட வேண்டும். முக்கியமான தகவல்களுக்கு, தொழில்முறை மனித மொழிபெயர்ப்பு பரிந்துரைக்கப்படுகிறது. இந்த மொழிபெயர்ப்பைப் பயன்படுத்துவதால் ஏற்படும் எந்த தவறான புரிதல்கள் அல்லது தவறான விளக்கங்களுக்கு நாங்கள் பொறுப்பல்ல.