History

localizeflow[bot] 2bc4085ea6 chore(i18n): sync translations with latest source changes (chunk 2/6, 473 changes)		2 months ago
..
1-QLearning	chore(i18n): sync translations with latest source changes (chunk 2/6, 473 changes)	2 months ago
2-Gym	chore(i18n): sync translations with latest source changes (chunk 2/6, 473 changes)	2 months ago
README.md	chore(i18n): sync translations with latest source changes (chunk 2/6, 473 changes)	2 months ago

README.md

రీన్ఫోర్స్‌మెంట్ లెర్నింగ్ పరిచయం

రీన్ఫోర్స్‌మెంట్ లెర్నింగ్, RL, పర్యవేక్షిత లెర్నింగ్ మరియు పర్యవేక్షణ లేని లెర్నింగ్ తరువాత ఒక ప్రాథమిక మెషీన్ లెర్నింగ్ పద్ధతిగా భావించబడుతుంది. RL అన్నది నిర్ణయాల గురించి: సరైన నిర్ణయాలను తీసుకోవడం లేదా కనీసం వాటి నుండి నేర్చుకోవడం.

మీకు స్టాక్ మార్కెట్ వంటి అనుకరణాత్మక వాతావరణం ఉందని ఊహించుకోండి. మీరు ఒక నిర్దిష్ట నియంత్రణను విధిస్తే ఏమవుతుంది? అది సానుకూల లేదా ప్రతికూల ప్రభావం కలిగిస్తుందా? ఏదైనా ప్రతికూలం జరిగితే, మీరు ఆ ప్రతికూల రీన్ఫోర్స్‌మెంట్ తీసుకుని, దానినుండి నేర్చుకుని, మార్గాన్ని మార్చుకోవాలి. అది సానుకూల ఫలితం అయితే, మీరు ఆ సానుకూల రీన్ఫోర్స్‌మెంట్ పై ఆధారపడి నిర్మించుకోవాలి.

పీటర్ మరియు అతని స్నేహితులు ఆకలితో ఉన్న నక్క నుండి తప్పించుకోవాలి! చిత్రం Jen Looper ద్వారా

ప్రాంతీయ విషయం: పీటర్ మరియు నక్క (రష్యా)

పీటర్ మరియు నక్క అనేది రష్యన్ సంగీతకారుడు సెర్గే ప్రోకోఫీవ్ రాసిన సంగీత కథ. ఇది యువ పయనికుడు పీటర్ గురించి, అతను ధైర్యంగా తన ఇంటి నుండి అడవి క్లియర్ చేయడానికి వెళ్లి నక్కను వెంబడిస్తాడు. ఈ విభాగంలో, మేము పీటర్‌కు సహాయపడే మెషీన్ లెర్నింగ్ అల్గోరిథమ్స్‌ను శిక్షణ ఇస్తాము:

చుట్టుపక్కల ప్రాంతాన్ని అన్వేషించండి మరియు ఉత్తమ నావిగేషన్ మ్యాప్‌ను నిర్మించండి
స్కేట్‌బోర్డ్‌ను ఉపయోగించడం మరియు దానిపై సమతుల్యం సాధించడం నేర్చుకోండి, తద్వారా వేగంగా చలించగలుగుతాడు.

🎥 పై చిత్రాన్ని క్లిక్ చేసి ప్రోకోఫీవ్ రచించిన పీటర్ మరియు నక్కను వినండి

రీన్ఫోర్స్‌మెంట్ లెర్నింగ్

మునుపటి విభాగాలలో, మీరు రెండు మెషీన్ లెర్నింగ్ సమస్యల ఉదాహరణలను చూశారు:

పర్యవేక్షిత, ఇక్కడ మనకు సమస్యను పరిష్కరించడానికి నమూనా పరిష్కారాలను సూచించే డేటాసెట్‌లు ఉంటాయి. వర్గీకరణ మరియు రెగ్రెషన్ పర్యవేక్షిత లెర్నింగ్ పనులు.
పర్యవేక్షణ లేని, ఇందులో మనకు లేబుల్ చేయబడిన శిక్షణ డేటా ఉండదు. పర్యవేక్షణ లేని లెర్నింగ్ యొక్క ప్రధాన ఉదాహరణ క్లస్టరింగ్.

ఈ విభాగంలో, లేబుల్ చేయబడిన శిక్షణ డేటా అవసరం లేని కొత్త రకమైన లెర్నింగ్ సమస్యను పరిచయం చేస్తాము. ఇలాంటి సమస్యలకి కొన్ని రకాలు ఉన్నాయి:

సెమీ-పర్యవేక్షిత లెర్నింగ్, ఇక్కడ మనకు చాలా unlabeled డేటా ఉంటుంది, దానిని మోడల్‌ను ప్రీ-ట్రెయిన్ చేయడానికి ఉపయోగించవచ్చు.
రీన్ఫోర్స్‌మెంట్ లెర్నింగ్, ఇందులో ఏజెంట్ ఒక అనుకరణాత్మక వాతావరణంలో ప్రయోగాలు చేసి ఎలా ప్రవర్తించాలో నేర్చుకుంటాడు.

ఉదాహరణ - కంప్యూటర్ గేమ్

మీరు కంప్యూటర్‌ను చెస్ లేదా సూపర్ మారియో వంటి గేమ్ ఆడటానికి బోధించాలనుకుంటే. కంప్యూటర్ గేమ్ ఆడాలంటే, ప్రతి గేమ్ స్థితిలో ఏ చర్య తీసుకోవాలో అంచనా వేయాలి. ఇది వర్గీకరణ సమస్యగా అనిపించవచ్చు, కానీ కాదు - ఎందుకంటే మనకు స్థితులు మరియు వాటికి సంబంధించిన చర్యలతో కూడిన డేటాసెట్ లేదు. మనకు కొన్ని డేటా ఉండవచ్చు, ఉదాహరణకు ఉన్న చెస్ మ్యాచ్‌లు లేదా సూపర్ మారియో ఆడుతున్న ప్లేయర్ల రికార్డింగ్‌లు, కానీ ఆ డేటా పెద్ద సంఖ్యలో సాధ్యమైన స్థితులను కవర్ చేయకపోవచ్చు.

ఉన్న గేమ్ డేటాను వెతకడం బదులు, రీన్ఫోర్స్‌మెంట్ లెర్నింగ్ (RL) అనేది కంప్యూటర్‌ను గేమ్ ఆడించటం మరియు ఫలితాన్ని గమనించడం అనే ఆలోచనపై ఆధారపడి ఉంటుంది. అందువల్ల, రీన్ఫోర్స్‌మెంట్ లెర్నింగ్‌ను వర్తింపజేయడానికి మనకు రెండు విషయాలు అవసరం:

ఒక వాతావరణం మరియు ఒక అనుకరణ యంత్రం (సిమ్యులేటర్) ఇది మనకు గేమ్‌ను ఎన్నో సార్లు ఆడటానికి అనుమతిస్తుంది. ఈ సిమ్యులేటర్ అన్ని గేమ్ నియమాలు, సాధ్యమైన స్థితులు మరియు చర్యలను నిర్వచిస్తుంది.
ఒక రివార్డ్ ఫంక్షన్, ఇది ప్రతి చర్య లేదా గేమ్ సమయంలో మనం ఎంత బాగా చేశామో చెపుతుంది.

ఇతర మెషీన్ లెర్నింగ్ రకాలతో RL మధ్య ప్రధాన తేడా ఏమిటంటే, RLలో మనం సాధారణంగా గేమ్ ముగిసే వరకు గెలిచామో ఓడామో తెలియదు. అందువల్ల, ఒక నిర్దిష్ట చర్య మంచిదా కాదా చెప్పలేము - గేమ్ చివరే రివార్డ్ వస్తుంది. మన లక్ష్యం అనిశ్చిత పరిస్థితులలో మోడల్‌ను శిక్షణ ఇస్తేలా అల్గోరిథమ్స్ రూపకల్పన చేయడం. మనం Q-లెర్నింగ్ అనే ఒక RL అల్గోరిథమ్ గురించి నేర్చుకుంటాము.

పాఠాలు

క్రెడిట్స్

"Introduction to Reinforcement Learning" ను ♥️ తో Dmitry Soshnikov రాశారు

అస్పష్టత:
ఈ పత్రాన్ని AI అనువాద సేవ Co-op Translator ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. అసలు పత్రం దాని స్వదేశీ భాషలోనే అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారితీసే అర్థాలు కోసం మేము బాధ్యత వహించము.