You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
ML-For-Beginners/translations/te/8-Reinforcement
localizeflow[bot] 2bc4085ea6
chore(i18n): sync translations with latest source changes (chunk 2/6, 473 changes)
2 weeks ago
..
1-QLearning chore(i18n): sync translations with latest source changes (chunk 2/6, 473 changes) 2 weeks ago
2-Gym chore(i18n): sync translations with latest source changes (chunk 2/6, 473 changes) 2 weeks ago
README.md chore(i18n): sync translations with latest source changes (chunk 2/6, 473 changes) 2 weeks ago

README.md

రీన్ఫోర్స్‌మెంట్ లెర్నింగ్ పరిచయం

రీన్ఫోర్స్‌మెంట్ లెర్నింగ్, RL, పర్యవేక్షిత లెర్నింగ్ మరియు పర్యవేక్షణ లేని లెర్నింగ్ తరువాత ఒక ప్రాథమిక మెషీన్ లెర్నింగ్ పద్ధతిగా భావించబడుతుంది. RL అన్నది నిర్ణయాల గురించి: సరైన నిర్ణయాలను తీసుకోవడం లేదా కనీసం వాటి నుండి నేర్చుకోవడం.

మీకు స్టాక్ మార్కెట్ వంటి అనుకరణాత్మక వాతావరణం ఉందని ఊహించుకోండి. మీరు ఒక నిర్దిష్ట నియంత్రణను విధిస్తే ఏమవుతుంది? అది సానుకూల లేదా ప్రతికూల ప్రభావం కలిగిస్తుందా? ఏదైనా ప్రతికూలం జరిగితే, మీరు ఆ ప్రతికూల రీన్ఫోర్స్‌మెంట్ తీసుకుని, దానినుండి నేర్చుకుని, మార్గాన్ని మార్చుకోవాలి. అది సానుకూల ఫలితం అయితే, మీరు ఆ సానుకూల రీన్ఫోర్స్‌మెంట్ పై ఆధారపడి నిర్మించుకోవాలి.

peter and the wolf

పీటర్ మరియు అతని స్నేహితులు ఆకలితో ఉన్న నక్క నుండి తప్పించుకోవాలి! చిత్రం Jen Looper ద్వారా

ప్రాంతీయ విషయం: పీటర్ మరియు నక్క (రష్యా)

పీటర్ మరియు నక్క అనేది రష్యన్ సంగీతకారుడు సెర్గే ప్రోకోఫీవ్ రాసిన సంగీత కథ. ఇది యువ పయనికుడు పీటర్ గురించి, అతను ధైర్యంగా తన ఇంటి నుండి అడవి క్లియర్ చేయడానికి వెళ్లి నక్కను వెంబడిస్తాడు. ఈ విభాగంలో, మేము పీటర్‌కు సహాయపడే మెషీన్ లెర్నింగ్ అల్గోరిథమ్స్‌ను శిక్షణ ఇస్తాము:

  • చుట్టుపక్కల ప్రాంతాన్ని అన్వేషించండి మరియు ఉత్తమ నావిగేషన్ మ్యాప్‌ను నిర్మించండి
  • స్కేట్‌బోర్డ్‌ను ఉపయోగించడం మరియు దానిపై సమతుల్యం సాధించడం నేర్చుకోండి, తద్వారా వేగంగా చలించగలుగుతాడు.

Peter and the Wolf

🎥 పై చిత్రాన్ని క్లిక్ చేసి ప్రోకోఫీవ్ రచించిన పీటర్ మరియు నక్కను వినండి

రీన్ఫోర్స్‌మెంట్ లెర్నింగ్

మునుపటి విభాగాలలో, మీరు రెండు మెషీన్ లెర్నింగ్ సమస్యల ఉదాహరణలను చూశారు:

  • పర్యవేక్షిత, ఇక్కడ మనకు సమస్యను పరిష్కరించడానికి నమూనా పరిష్కారాలను సూచించే డేటాసెట్‌లు ఉంటాయి. వర్గీకరణ మరియు రెగ్రెషన్ పర్యవేక్షిత లెర్నింగ్ పనులు.
  • పర్యవేక్షణ లేని, ఇందులో మనకు లేబుల్ చేయబడిన శిక్షణ డేటా ఉండదు. పర్యవేక్షణ లేని లెర్నింగ్ యొక్క ప్రధాన ఉదాహరణ క్లస్టరింగ్.

ఈ విభాగంలో, లేబుల్ చేయబడిన శిక్షణ డేటా అవసరం లేని కొత్త రకమైన లెర్నింగ్ సమస్యను పరిచయం చేస్తాము. ఇలాంటి సమస్యలకి కొన్ని రకాలు ఉన్నాయి:

ఉదాహరణ - కంప్యూటర్ గేమ్

మీరు కంప్యూటర్‌ను చెస్ లేదా సూపర్ మారియో వంటి గేమ్ ఆడటానికి బోధించాలనుకుంటే. కంప్యూటర్ గేమ్ ఆడాలంటే, ప్రతి గేమ్ స్థితిలో ఏ చర్య తీసుకోవాలో అంచనా వేయాలి. ఇది వర్గీకరణ సమస్యగా అనిపించవచ్చు, కానీ కాదు - ఎందుకంటే మనకు స్థితులు మరియు వాటికి సంబంధించిన చర్యలతో కూడిన డేటాసెట్ లేదు. మనకు కొన్ని డేటా ఉండవచ్చు, ఉదాహరణకు ఉన్న చెస్ మ్యాచ్‌లు లేదా సూపర్ మారియో ఆడుతున్న ప్లేయర్ల రికార్డింగ్‌లు, కానీ ఆ డేటా పెద్ద సంఖ్యలో సాధ్యమైన స్థితులను కవర్ చేయకపోవచ్చు.

ఉన్న గేమ్ డేటాను వెతకడం బదులు, రీన్ఫోర్స్‌మెంట్ లెర్నింగ్ (RL) అనేది కంప్యూటర్‌ను గేమ్ ఆడించటం మరియు ఫలితాన్ని గమనించడం అనే ఆలోచనపై ఆధారపడి ఉంటుంది. అందువల్ల, రీన్ఫోర్స్‌మెంట్ లెర్నింగ్‌ను వర్తింపజేయడానికి మనకు రెండు విషయాలు అవసరం:

  • ఒక వాతావరణం మరియు ఒక అనుకరణ యంత్రం (సిమ్యులేటర్) ఇది మనకు గేమ్‌ను ఎన్నో సార్లు ఆడటానికి అనుమతిస్తుంది. ఈ సిమ్యులేటర్ అన్ని గేమ్ నియమాలు, సాధ్యమైన స్థితులు మరియు చర్యలను నిర్వచిస్తుంది.

  • ఒక రివార్డ్ ఫంక్షన్, ఇది ప్రతి చర్య లేదా గేమ్ సమయంలో మనం ఎంత బాగా చేశామో చెపుతుంది.

ఇతర మెషీన్ లెర్నింగ్ రకాలతో RL మధ్య ప్రధాన తేడా ఏమిటంటే, RLలో మనం సాధారణంగా గేమ్ ముగిసే వరకు గెలిచామో ఓడామో తెలియదు. అందువల్ల, ఒక నిర్దిష్ట చర్య మంచిదా కాదా చెప్పలేము - గేమ్ చివరే రివార్డ్ వస్తుంది. మన లక్ష్యం అనిశ్చిత పరిస్థితులలో మోడల్‌ను శిక్షణ ఇస్తేలా అల్గోరిథమ్స్ రూపకల్పన చేయడం. మనం Q-లెర్నింగ్ అనే ఒక RL అల్గోరిథమ్ గురించి నేర్చుకుంటాము.

పాఠాలు

  1. రీన్ఫోర్స్‌మెంట్ లెర్నింగ్ మరియు Q-లెర్నింగ్ పరిచయం
  2. జిమ్ అనుకరణ వాతావరణం ఉపయోగించడం

క్రెడిట్స్

"Introduction to Reinforcement Learning" ను ♥️ తో Dmitry Soshnikov రాశారు


అస్పష్టత:
ఈ పత్రాన్ని AI అనువాద సేవ Co-op Translator ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. అసలు పత్రం దాని స్వదేశీ భాషలోనే అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారితీసే అర్థాలు కోసం మేము బాధ్యత వహించము.