History

localizeflow[bot] 081f029c0d chore(i18n): sync translations with latest source changes (chunk 1/1, 300 changes)		6 months ago
..
1-QLearning	chore(i18n): sync translations with latest source changes (chunk 1/1, 300 changes)	6 months ago
2-Gym	chore(i18n): sync translations with latest source changes (chunk 1/1, 300 changes)	6 months ago
README.md	chore(i18n): sync translations with latest source changes (chunk 1/1, 300 changes)	6 months ago

README.md

அறிமுகம்: பலகூறு கற்றல்

பலகூறு கற்றல் (Reinforcement Learning, RL) என்பது மேற்பார்வை கற்றல் மற்றும் தன்னிச்சை கற்றலுக்கு அடுத்ததாகக் காணப்படும் அடிப்படை இயந்திரக் கற்றல் முறைகளில் ஒன்றாகும். RL என்பது முடிவுகளைப் பற்றியது: சரியான முடிவுகளை எடுப்பது அல்லது குறைந்தபட்சம் அவற்றிலிருந்து கற்றுக்கொள்வது.

உங்கள் கற்பனைக்கு ஒரு சோதனைச் சூழல், உதாரணமாக பங்கு சந்தை உள்ளது என்று நினைக்கவும். நீங்கள் ஒரு குறிப்பிட்ட விதிமுறையை விதிக்கும்போது என்ன நடக்கும்? இது நேர்மறையான அல்லது எதிர்மறையான விளைவுகளை ஏற்படுத்துமா? ஏதேனும் எதிர்மறையானது நிகழ்ந்தால், நீங்கள் அந்த _எதிர்மறை பலகூறு_யை எடுத்துக்கொண்டு, அதிலிருந்து கற்றுக்கொண்டு, பாதையை மாற்ற வேண்டும். இது ஒரு நேர்மறை விளைவாக இருந்தால், நீங்கள் அந்த _நேர்மறை பலகூறு_யை மேம்படுத்த வேண்டும்.

பீட்டர் மற்றும் அவரது நண்பர்கள் பசிக்கொண்டு இருக்கும் ஓநாயைத் தப்பிக்க வேண்டும்! படம்: ஜென் லூப்பர்

பிராந்திய தலைப்பு: பீட்டர் மற்றும் ஓநாய் (ரஷ்யா)

பீட்டர் மற்றும் ஓநாய் என்பது ரஷ்ய இசையமைப்பாளர் செர்கேய் புரோகோபியெவ் எழுதிய ஒரு இசை கதை. இக்கதையில் இளம் முன்னோடி பீட்டர், தைரியமாக தனது வீட்டிலிருந்து காடுக்குள் சென்று ஓநாயை விரட்ட முயற்சிக்கிறார். இந்தப் பகுதியில், பீட்டருக்கு உதவ இயந்திரக் கற்றல் ஆல்காரிதங்களை பயிற்சி செய்யப் போகிறோம்:

சுற்றியுள்ள பகுதியை ஆராய்ந்து, சிறந்த வழிசெலுத்தல் வரைபடத்தை உருவாக்குதல்.
ஸ்கேட் போர்டைப் பயன்படுத்துவது மற்றும் அதில் சமநிலையைப் பேணுவது கற்றுக்கொள்வது, வேகமாகச் செல்ல.

🎥 மேலே உள்ள படத்தை கிளிக் செய்து புரோகோபியெவின் பீட்டர் மற்றும் ஓநாயை கேட்கவும்

பலகூறு கற்றல்

முந்தைய பகுதிகளில், நீங்கள் இயந்திரக் கற்றல் பிரச்சினைகளின் இரண்டு உதாரணங்களைப் பார்த்தீர்கள்:

மேற்பார்வை கற்றல், இதில் நாம் தீர்வுகளைத் தரும் தரவுத்தொகுப்புகளைப் பயன்படுத்துகிறோம். வகைப்படுத்தல் மற்றும் மீள்பார்வை ஆகியவை மேற்பார்வை கற்றல் பணிகள்.
தன்னிச்சை கற்றல், இதில் நாம் குறிச்சொற்களுடன் கூடிய பயிற்சி தரவுகளைப் பெறவில்லை. தன்னிச்சை கற்றலின் முக்கிய உதாரணம் குழுமம் அமைத்தல்.

இந்தப் பகுதியில், குறிச்சொற்களுடன் கூடிய பயிற்சி தரவுகளைத் தேவையில்லாமல் ஒரு புதிய கற்றல் பிரச்சினையை அறிமுகப்படுத்தப் போகிறோம். இத்தகைய பிரச்சினைகளின் சில வகைகள் உள்ளன:

அரை-மேற்பார்வை கற்றல், இதில் அதிக அளவிலான குறிச்சொற்களற்ற தரவுகளை மாடலை முன்பயிற்சி செய்ய பயன்படுத்தலாம்.
பலகூறு கற்றல், இதில் ஒரு முகவர் (agent) சோதனைச் சூழலில் செயல்படுவதன் மூலம் எப்படி நடந்து கொள்ள வேண்டும் என்பதை கற்றுக்கொள்கிறார்.

உதாரணம் - கணினி விளையாட்டு

நீங்கள் ஒரு கணினியை ஒரு விளையாட்டை விளையாட கற்றுக்கொடுக்க விரும்புகிறீர்கள் என்று நினைக்கவும், உதாரணமாக சதுரங்கம் அல்லது சூப்பர் மாரியோ. கணினி ஒரு விளையாட்டை விளையாட, விளையாட்டின் ஒவ்வொரு நிலைமையிலும் எந்த நகர்வை செய்ய வேண்டும் என்பதை கணிக்க வேண்டும். இது ஒரு வகைப்படுத்தல் பிரச்சினையாகத் தோன்றினாலும், அது இல்லை - ஏனெனில் நமக்கு நிலைகள் மற்றும் தொடர்புடைய செயல்களுடன் கூடிய தரவுத்தொகுப்பு இல்லை. சதுரங்க போட்டிகள் அல்லது சூப்பர் மாரியோ விளையாடும் வீரர்களின் பதிவுகள் போன்ற தரவுகள் இருந்தாலும், அவை போதுமான அளவிலான நிலைகளை உள்ளடக்காது.

மாறாக, பலகூறு கற்றல் (RL) என்பது கணினியை பலமுறை விளையாடச் செய்வது மற்றும் விளைவுகளைப் பார்வையிடுவது என்ற கருத்தில் அடிப்படையாக உள்ளது. எனவே, பலகூறு கற்றலைப் பயன்படுத்த, நமக்கு இரண்டு விஷயங்கள் தேவை:

ஒரு சூழல் மற்றும் ஒரு சிமுலேட்டர், இது ஒரு விளையாட்டை பலமுறை விளையாட அனுமதிக்கும். இந்த சிமுலேட்டர் அனைத்து விளையாட்டு விதிகளையும், நிலைகள் மற்றும் செயல்களையும் வரையறுக்கும்.
ஒரு வெகுமதி செயல்பாடு, இது ஒவ்வொரு நகர்வு அல்லது விளையாட்டின் போது நாங்கள் எவ்வளவு சிறப்பாக செயல்பட்டோம் என்பதைச் சொல்வது.

மற்ற இயந்திரக் கற்றல் வகைகளுக்கும் RL-க்கும் உள்ள முக்கிய வித்தியாசம் என்னவென்றால், RL-ல் நாம் பொதுவாக விளையாட்டை முடிக்கும்வரை வெற்றி அல்லது தோல்வி என்பதை அறிய முடியாது. எனவே, ஒரு குறிப்பிட்ட நகர்வு தனியாக நல்லது அல்லது கெட்டது என்று சொல்ல முடியாது - நாங்கள் வெகுமதியை விளையாட்டின் முடிவில் மட்டுமே பெறுகிறோம். மேலும், நிச்சயமற்ற சூழல்களில் ஒரு மாடலை பயிற்சி செய்ய அனுமதிக்கும் ஆல்காரிதங்களை வடிவமைப்பதே நமது நோக்கம். Q-learning எனப்படும் ஒரு RL ஆல்காரிதத்தைப் பற்றி நாம் கற்றுக்கொள்வோம்.

பாடங்கள்

நன்றி

"பலகூறு கற்றலுக்கான அறிமுகம்" ♥️ உடன் டிமிட்ரி சோஷ்னிகோவ் எழுதியது.

குறிப்பு:
இந்த ஆவணம் Co-op Translator என்ற AI மொழிபெயர்ப்பு சேவையைப் பயன்படுத்தி மொழிபெயர்க்கப்பட்டுள்ளது. நாங்கள் துல்லியத்திற்காக முயற்சிக்கின்றோம், ஆனால் தானியக்க மொழிபெயர்ப்புகளில் பிழைகள் அல்லது தவறுகள் இருக்கக்கூடும் என்பதை தயவுசெய்து கவனத்தில் கொள்ளுங்கள். அதன் தாய்மொழியில் உள்ள மூல ஆவணம் அதிகாரப்பூர்வ ஆதாரமாக கருதப்பட வேண்டும். முக்கியமான தகவல்களுக்கு, தொழில்முறை மனித மொழிபெயர்ப்பு பரிந்துரைக்கப்படுகிறது. இந்த மொழிபெயர்ப்பைப் பயன்படுத்துவதால் ஏற்படும் எந்த தவறான புரிதல்கள் அல்லது தவறான விளக்கங்களுக்கு நாங்கள் பொறுப்பல்ல.