|
|
2 weeks ago | |
|---|---|---|
| .. | ||
| 1-QLearning | 2 weeks ago | |
| 2-Gym | 2 weeks ago | |
| README.md | 2 weeks ago | |
README.md
రీన్ఫోర్స్మెంట్ లెర్నింగ్ పరిచయం
రీన్ఫోర్స్మెంట్ లెర్నింగ్, RL, పర్యవేక్షిత లెర్నింగ్ మరియు పర్యవేక్షణ లేని లెర్నింగ్ తరువాత ఒక ప్రాథమిక మెషీన్ లెర్నింగ్ పద్ధతిగా భావించబడుతుంది. RL అన్నది నిర్ణయాల గురించి: సరైన నిర్ణయాలను తీసుకోవడం లేదా కనీసం వాటి నుండి నేర్చుకోవడం.
మీకు స్టాక్ మార్కెట్ వంటి అనుకరణాత్మక వాతావరణం ఉందని ఊహించుకోండి. మీరు ఒక నిర్దిష్ట నియంత్రణను విధిస్తే ఏమవుతుంది? అది సానుకూల లేదా ప్రతికూల ప్రభావం కలిగిస్తుందా? ఏదైనా ప్రతికూలం జరిగితే, మీరు ఆ ప్రతికూల రీన్ఫోర్స్మెంట్ తీసుకుని, దానినుండి నేర్చుకుని, మార్గాన్ని మార్చుకోవాలి. అది సానుకూల ఫలితం అయితే, మీరు ఆ సానుకూల రీన్ఫోర్స్మెంట్ పై ఆధారపడి నిర్మించుకోవాలి.
పీటర్ మరియు అతని స్నేహితులు ఆకలితో ఉన్న నక్క నుండి తప్పించుకోవాలి! చిత్రం Jen Looper ద్వారా
ప్రాంతీయ విషయం: పీటర్ మరియు నక్క (రష్యా)
పీటర్ మరియు నక్క అనేది రష్యన్ సంగీతకారుడు సెర్గే ప్రోకోఫీవ్ రాసిన సంగీత కథ. ఇది యువ పయనికుడు పీటర్ గురించి, అతను ధైర్యంగా తన ఇంటి నుండి అడవి క్లియర్ చేయడానికి వెళ్లి నక్కను వెంబడిస్తాడు. ఈ విభాగంలో, మేము పీటర్కు సహాయపడే మెషీన్ లెర్నింగ్ అల్గోరిథమ్స్ను శిక్షణ ఇస్తాము:
- చుట్టుపక్కల ప్రాంతాన్ని అన్వేషించండి మరియు ఉత్తమ నావిగేషన్ మ్యాప్ను నిర్మించండి
- స్కేట్బోర్డ్ను ఉపయోగించడం మరియు దానిపై సమతుల్యం సాధించడం నేర్చుకోండి, తద్వారా వేగంగా చలించగలుగుతాడు.
🎥 పై చిత్రాన్ని క్లిక్ చేసి ప్రోకోఫీవ్ రచించిన పీటర్ మరియు నక్కను వినండి
రీన్ఫోర్స్మెంట్ లెర్నింగ్
మునుపటి విభాగాలలో, మీరు రెండు మెషీన్ లెర్నింగ్ సమస్యల ఉదాహరణలను చూశారు:
- పర్యవేక్షిత, ఇక్కడ మనకు సమస్యను పరిష్కరించడానికి నమూనా పరిష్కారాలను సూచించే డేటాసెట్లు ఉంటాయి. వర్గీకరణ మరియు రెగ్రెషన్ పర్యవేక్షిత లెర్నింగ్ పనులు.
- పర్యవేక్షణ లేని, ఇందులో మనకు లేబుల్ చేయబడిన శిక్షణ డేటా ఉండదు. పర్యవేక్షణ లేని లెర్నింగ్ యొక్క ప్రధాన ఉదాహరణ క్లస్టరింగ్.
ఈ విభాగంలో, లేబుల్ చేయబడిన శిక్షణ డేటా అవసరం లేని కొత్త రకమైన లెర్నింగ్ సమస్యను పరిచయం చేస్తాము. ఇలాంటి సమస్యలకి కొన్ని రకాలు ఉన్నాయి:
- సెమీ-పర్యవేక్షిత లెర్నింగ్, ఇక్కడ మనకు చాలా unlabeled డేటా ఉంటుంది, దానిని మోడల్ను ప్రీ-ట్రెయిన్ చేయడానికి ఉపయోగించవచ్చు.
- రీన్ఫోర్స్మెంట్ లెర్నింగ్, ఇందులో ఏజెంట్ ఒక అనుకరణాత్మక వాతావరణంలో ప్రయోగాలు చేసి ఎలా ప్రవర్తించాలో నేర్చుకుంటాడు.
ఉదాహరణ - కంప్యూటర్ గేమ్
మీరు కంప్యూటర్ను చెస్ లేదా సూపర్ మారియో వంటి గేమ్ ఆడటానికి బోధించాలనుకుంటే. కంప్యూటర్ గేమ్ ఆడాలంటే, ప్రతి గేమ్ స్థితిలో ఏ చర్య తీసుకోవాలో అంచనా వేయాలి. ఇది వర్గీకరణ సమస్యగా అనిపించవచ్చు, కానీ కాదు - ఎందుకంటే మనకు స్థితులు మరియు వాటికి సంబంధించిన చర్యలతో కూడిన డేటాసెట్ లేదు. మనకు కొన్ని డేటా ఉండవచ్చు, ఉదాహరణకు ఉన్న చెస్ మ్యాచ్లు లేదా సూపర్ మారియో ఆడుతున్న ప్లేయర్ల రికార్డింగ్లు, కానీ ఆ డేటా పెద్ద సంఖ్యలో సాధ్యమైన స్థితులను కవర్ చేయకపోవచ్చు.
ఉన్న గేమ్ డేటాను వెతకడం బదులు, రీన్ఫోర్స్మెంట్ లెర్నింగ్ (RL) అనేది కంప్యూటర్ను గేమ్ ఆడించటం మరియు ఫలితాన్ని గమనించడం అనే ఆలోచనపై ఆధారపడి ఉంటుంది. అందువల్ల, రీన్ఫోర్స్మెంట్ లెర్నింగ్ను వర్తింపజేయడానికి మనకు రెండు విషయాలు అవసరం:
-
ఒక వాతావరణం మరియు ఒక అనుకరణ యంత్రం (సిమ్యులేటర్) ఇది మనకు గేమ్ను ఎన్నో సార్లు ఆడటానికి అనుమతిస్తుంది. ఈ సిమ్యులేటర్ అన్ని గేమ్ నియమాలు, సాధ్యమైన స్థితులు మరియు చర్యలను నిర్వచిస్తుంది.
-
ఒక రివార్డ్ ఫంక్షన్, ఇది ప్రతి చర్య లేదా గేమ్ సమయంలో మనం ఎంత బాగా చేశామో చెపుతుంది.
ఇతర మెషీన్ లెర్నింగ్ రకాలతో RL మధ్య ప్రధాన తేడా ఏమిటంటే, RLలో మనం సాధారణంగా గేమ్ ముగిసే వరకు గెలిచామో ఓడామో తెలియదు. అందువల్ల, ఒక నిర్దిష్ట చర్య మంచిదా కాదా చెప్పలేము - గేమ్ చివరే రివార్డ్ వస్తుంది. మన లక్ష్యం అనిశ్చిత పరిస్థితులలో మోడల్ను శిక్షణ ఇస్తేలా అల్గోరిథమ్స్ రూపకల్పన చేయడం. మనం Q-లెర్నింగ్ అనే ఒక RL అల్గోరిథమ్ గురించి నేర్చుకుంటాము.
పాఠాలు
క్రెడిట్స్
"Introduction to Reinforcement Learning" ను ♥️ తో Dmitry Soshnikov రాశారు
అస్పష్టత:
ఈ పత్రాన్ని AI అనువాద సేవ Co-op Translator ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. అసలు పత్రం దాని స్వదేశీ భాషలోనే అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారితీసే అర్థాలు కోసం మేము బాధ్యత వహించము.

