|
|
3 weeks ago | |
|---|---|---|
| .. | ||
| 1-QLearning | 3 weeks ago | |
| 2-Gym | 3 weeks ago | |
| README.md | 3 weeks ago | |
README.md
அறிமுகம்: பலகூறு கற்றல்
பலகூறு கற்றல் (Reinforcement Learning, RL) என்பது மேற்பார்வை கற்றல் மற்றும் தன்னிச்சை கற்றலுக்கு அடுத்ததாகக் காணப்படும் அடிப்படை இயந்திரக் கற்றல் முறைகளில் ஒன்றாகும். RL என்பது முடிவுகளைப் பற்றியது: சரியான முடிவுகளை எடுப்பது அல்லது குறைந்தபட்சம் அவற்றிலிருந்து கற்றுக்கொள்வது.
உங்கள் கற்பனைக்கு ஒரு சோதனைச் சூழல், உதாரணமாக பங்கு சந்தை உள்ளது என்று நினைக்கவும். நீங்கள் ஒரு குறிப்பிட்ட விதிமுறையை விதிக்கும்போது என்ன நடக்கும்? இது நேர்மறையான அல்லது எதிர்மறையான விளைவுகளை ஏற்படுத்துமா? ஏதேனும் எதிர்மறையானது நிகழ்ந்தால், நீங்கள் அந்த _எதிர்மறை பலகூறு_யை எடுத்துக்கொண்டு, அதிலிருந்து கற்றுக்கொண்டு, பாதையை மாற்ற வேண்டும். இது ஒரு நேர்மறை விளைவாக இருந்தால், நீங்கள் அந்த _நேர்மறை பலகூறு_யை மேம்படுத்த வேண்டும்.
பீட்டர் மற்றும் அவரது நண்பர்கள் பசிக்கொண்டு இருக்கும் ஓநாயைத் தப்பிக்க வேண்டும்! படம்: ஜென் லூப்பர்
பிராந்திய தலைப்பு: பீட்டர் மற்றும் ஓநாய் (ரஷ்யா)
பீட்டர் மற்றும் ஓநாய் என்பது ரஷ்ய இசையமைப்பாளர் செர்கேய் புரோகோபியெவ் எழுதிய ஒரு இசை கதை. இக்கதையில் இளம் முன்னோடி பீட்டர், தைரியமாக தனது வீட்டிலிருந்து காடுக்குள் சென்று ஓநாயை விரட்ட முயற்சிக்கிறார். இந்தப் பகுதியில், பீட்டருக்கு உதவ இயந்திரக் கற்றல் ஆல்காரிதங்களை பயிற்சி செய்யப் போகிறோம்:
- சுற்றியுள்ள பகுதியை ஆராய்ந்து, சிறந்த வழிசெலுத்தல் வரைபடத்தை உருவாக்குதல்.
- ஸ்கேட் போர்டைப் பயன்படுத்துவது மற்றும் அதில் சமநிலையைப் பேணுவது கற்றுக்கொள்வது, வேகமாகச் செல்ல.
🎥 மேலே உள்ள படத்தை கிளிக் செய்து புரோகோபியெவின் பீட்டர் மற்றும் ஓநாயை கேட்கவும்
பலகூறு கற்றல்
முந்தைய பகுதிகளில், நீங்கள் இயந்திரக் கற்றல் பிரச்சினைகளின் இரண்டு உதாரணங்களைப் பார்த்தீர்கள்:
- மேற்பார்வை கற்றல், இதில் நாம் தீர்வுகளைத் தரும் தரவுத்தொகுப்புகளைப் பயன்படுத்துகிறோம். வகைப்படுத்தல் மற்றும் மீள்பார்வை ஆகியவை மேற்பார்வை கற்றல் பணிகள்.
- தன்னிச்சை கற்றல், இதில் நாம் குறிச்சொற்களுடன் கூடிய பயிற்சி தரவுகளைப் பெறவில்லை. தன்னிச்சை கற்றலின் முக்கிய உதாரணம் குழுமம் அமைத்தல்.
இந்தப் பகுதியில், குறிச்சொற்களுடன் கூடிய பயிற்சி தரவுகளைத் தேவையில்லாமல் ஒரு புதிய கற்றல் பிரச்சினையை அறிமுகப்படுத்தப் போகிறோம். இத்தகைய பிரச்சினைகளின் சில வகைகள் உள்ளன:
- அரை-மேற்பார்வை கற்றல், இதில் அதிக அளவிலான குறிச்சொற்களற்ற தரவுகளை மாடலை முன்பயிற்சி செய்ய பயன்படுத்தலாம்.
- பலகூறு கற்றல், இதில் ஒரு முகவர் (agent) சோதனைச் சூழலில் செயல்படுவதன் மூலம் எப்படி நடந்து கொள்ள வேண்டும் என்பதை கற்றுக்கொள்கிறார்.
உதாரணம் - கணினி விளையாட்டு
நீங்கள் ஒரு கணினியை ஒரு விளையாட்டை விளையாட கற்றுக்கொடுக்க விரும்புகிறீர்கள் என்று நினைக்கவும், உதாரணமாக சதுரங்கம் அல்லது சூப்பர் மாரியோ. கணினி ஒரு விளையாட்டை விளையாட, விளையாட்டின் ஒவ்வொரு நிலைமையிலும் எந்த நகர்வை செய்ய வேண்டும் என்பதை கணிக்க வேண்டும். இது ஒரு வகைப்படுத்தல் பிரச்சினையாகத் தோன்றினாலும், அது இல்லை - ஏனெனில் நமக்கு நிலைகள் மற்றும் தொடர்புடைய செயல்களுடன் கூடிய தரவுத்தொகுப்பு இல்லை. சதுரங்க போட்டிகள் அல்லது சூப்பர் மாரியோ விளையாடும் வீரர்களின் பதிவுகள் போன்ற தரவுகள் இருந்தாலும், அவை போதுமான அளவிலான நிலைகளை உள்ளடக்காது.
மாறாக, பலகூறு கற்றல் (RL) என்பது கணினியை பலமுறை விளையாடச் செய்வது மற்றும் விளைவுகளைப் பார்வையிடுவது என்ற கருத்தில் அடிப்படையாக உள்ளது. எனவே, பலகூறு கற்றலைப் பயன்படுத்த, நமக்கு இரண்டு விஷயங்கள் தேவை:
-
ஒரு சூழல் மற்றும் ஒரு சிமுலேட்டர், இது ஒரு விளையாட்டை பலமுறை விளையாட அனுமதிக்கும். இந்த சிமுலேட்டர் அனைத்து விளையாட்டு விதிகளையும், நிலைகள் மற்றும் செயல்களையும் வரையறுக்கும்.
-
ஒரு வெகுமதி செயல்பாடு, இது ஒவ்வொரு நகர்வு அல்லது விளையாட்டின் போது நாங்கள் எவ்வளவு சிறப்பாக செயல்பட்டோம் என்பதைச் சொல்வது.
மற்ற இயந்திரக் கற்றல் வகைகளுக்கும் RL-க்கும் உள்ள முக்கிய வித்தியாசம் என்னவென்றால், RL-ல் நாம் பொதுவாக விளையாட்டை முடிக்கும்வரை வெற்றி அல்லது தோல்வி என்பதை அறிய முடியாது. எனவே, ஒரு குறிப்பிட்ட நகர்வு தனியாக நல்லது அல்லது கெட்டது என்று சொல்ல முடியாது - நாங்கள் வெகுமதியை விளையாட்டின் முடிவில் மட்டுமே பெறுகிறோம். மேலும், நிச்சயமற்ற சூழல்களில் ஒரு மாடலை பயிற்சி செய்ய அனுமதிக்கும் ஆல்காரிதங்களை வடிவமைப்பதே நமது நோக்கம். Q-learning எனப்படும் ஒரு RL ஆல்காரிதத்தைப் பற்றி நாம் கற்றுக்கொள்வோம்.
பாடங்கள்
நன்றி
"பலகூறு கற்றலுக்கான அறிமுகம்" ♥️ உடன் டிமிட்ரி சோஷ்னிகோவ் எழுதியது.
குறிப்பு:
இந்த ஆவணம் Co-op Translator என்ற AI மொழிபெயர்ப்பு சேவையைப் பயன்படுத்தி மொழிபெயர்க்கப்பட்டுள்ளது. நாங்கள் துல்லியத்திற்காக முயற்சிக்கின்றோம், ஆனால் தானியக்க மொழிபெயர்ப்புகளில் பிழைகள் அல்லது தவறுகள் இருக்கக்கூடும் என்பதை தயவுசெய்து கவனத்தில் கொள்ளுங்கள். அதன் தாய்மொழியில் உள்ள மூல ஆவணம் அதிகாரப்பூர்வ ஆதாரமாக கருதப்பட வேண்டும். முக்கியமான தகவல்களுக்கு, தொழில்முறை மனித மொழிபெயர்ப்பு பரிந்துரைக்கப்படுகிறது. இந்த மொழிபெயர்ப்பைப் பயன்படுத்துவதால் ஏற்படும் எந்த தவறான புரிதல்கள் அல்லது தவறான விளக்கங்களுக்கு நாங்கள் பொறுப்பல்ல.

