11 KiB

Raw Blame History

రీన్ఫోర్స్‌మెంట్ లెర్నింగ్ పరిచయం

రీన్ఫోర్స్‌మెంట్ లెర్నింగ్, RL, పర్యవేక్షిత లెర్నింగ్ మరియు పర్యవేక్షణ లేని లెర్నింగ్ తరువాత ఒక ప్రాథమిక మెషీన్ లెర్నింగ్ పద్ధతిగా భావించబడుతుంది. RL అన్నది నిర్ణయాల గురించి: సరైన నిర్ణయాలను తీసుకోవడం లేదా కనీసం వాటి నుండి నేర్చుకోవడం.

మీకు స్టాక్ మార్కెట్ వంటి అనుకరణాత్మక వాతావరణం ఉందని ఊహించుకోండి. మీరు ఒక నిర్దిష్ట నియంత్రణను విధిస్తే ఏమవుతుంది? అది సానుకూల లేదా ప్రతికూల ప్రభావం కలిగిస్తుందా? ఏదైనా ప్రతికూలం జరిగితే, మీరు ఆ ప్రతికూల రీన్ఫోర్స్‌మెంట్ తీసుకుని, దానినుండి నేర్చుకుని, మార్గాన్ని మార్చుకోవాలి. అది సానుకూల ఫలితం అయితే, మీరు ఆ సానుకూల రీన్ఫోర్స్‌మెంట్ పై ఆధారపడి నిర్మించుకోవాలి.

పీటర్ మరియు అతని స్నేహితులు ఆకలితో ఉన్న నక్క నుండి తప్పించుకోవాలి! చిత్రం Jen Looper ద్వారా

ప్రాంతీయ విషయం: పీటర్ మరియు నక్క (రష్యా)

పీటర్ మరియు నక్క అనేది రష్యన్ సంగీతకారుడు సెర్గే ప్రోకోఫీవ్ రాసిన సంగీత కథ. ఇది యువ పయనికుడు పీటర్ గురించి, అతను ధైర్యంగా తన ఇంటి నుండి అడవి క్లియర్ చేయడానికి వెళ్లి నక్కను వెంబడిస్తాడు. ఈ విభాగంలో, మేము పీటర్‌కు సహాయపడే మెషీన్ లెర్నింగ్ అల్గోరిథమ్స్‌ను శిక్షణ ఇస్తాము:

చుట్టుపక్కల ప్రాంతాన్ని అన్వేషించండి మరియు ఉత్తమ నావిగేషన్ మ్యాప్‌ను నిర్మించండి
స్కేట్‌బోర్డ్‌ను ఉపయోగించడం మరియు దానిపై సమతుల్యం సాధించడం నేర్చుకోండి, తద్వారా వేగంగా చలించగలుగుతాడు.

🎥 పై చిత్రాన్ని క్లిక్ చేసి ప్రోకోఫీవ్ రచించిన పీటర్ మరియు నక్కను వినండి

రీన్ఫోర్స్‌మెంట్ లెర్నింగ్

మునుపటి విభాగాలలో, మీరు రెండు మెషీన్ లెర్నింగ్ సమస్యల ఉదాహరణలను చూశారు:

పర్యవేక్షిత, ఇక్కడ మనకు సమస్యను పరిష్కరించడానికి నమూనా పరిష్కారాలను సూచించే డేటాసెట్‌లు ఉంటాయి. వర్గీకరణ మరియు రెగ్రెషన్ పర్యవేక్షిత లెర్నింగ్ పనులు.
పర్యవేక్షణ లేని, ఇందులో మనకు లేబుల్ చేయబడిన శిక్షణ డేటా ఉండదు. పర్యవేక్షణ లేని లెర్నింగ్ యొక్క ప్రధాన ఉదాహరణ క్లస్టరింగ్.

ఈ విభాగంలో, లేబుల్ చేయబడిన శిక్షణ డేటా అవసరం లేని కొత్త రకమైన లెర్నింగ్ సమస్యను పరిచయం చేస్తాము. ఇలాంటి సమస్యలకి కొన్ని రకాలు ఉన్నాయి:

సెమీ-పర్యవేక్షిత లెర్నింగ్, ఇక్కడ మనకు చాలా unlabeled డేటా ఉంటుంది, దానిని మోడల్‌ను ప్రీ-ట్రెయిన్ చేయడానికి ఉపయోగించవచ్చు.
రీన్ఫోర్స్‌మెంట్ లెర్నింగ్, ఇందులో ఏజెంట్ ఒక అనుకరణాత్మక వాతావరణంలో ప్రయోగాలు చేసి ఎలా ప్రవర్తించాలో నేర్చుకుంటాడు.

ఉదాహరణ - కంప్యూటర్ గేమ్

మీరు కంప్యూటర్‌ను చెస్ లేదా సూపర్ మారియో వంటి గేమ్ ఆడటానికి బోధించాలనుకుంటే. కంప్యూటర్ గేమ్ ఆడాలంటే, ప్రతి గేమ్ స్థితిలో ఏ చర్య తీసుకోవాలో అంచనా వేయాలి. ఇది వర్గీకరణ సమస్యగా అనిపించవచ్చు, కానీ కాదు - ఎందుకంటే మనకు స్థితులు మరియు వాటికి సంబంధించిన చర్యలతో కూడిన డేటాసెట్ లేదు. మనకు కొన్ని డేటా ఉండవచ్చు, ఉదాహరణకు ఉన్న చెస్ మ్యాచ్‌లు లేదా సూపర్ మారియో ఆడుతున్న ప్లేయర్ల రికార్డింగ్‌లు, కానీ ఆ డేటా పెద్ద సంఖ్యలో సాధ్యమైన స్థితులను కవర్ చేయకపోవచ్చు.

ఉన్న గేమ్ డేటాను వెతకడం బదులు, రీన్ఫోర్స్‌మెంట్ లెర్నింగ్ (RL) అనేది కంప్యూటర్‌ను గేమ్ ఆడించటం మరియు ఫలితాన్ని గమనించడం అనే ఆలోచనపై ఆధారపడి ఉంటుంది. అందువల్ల, రీన్ఫోర్స్‌మెంట్ లెర్నింగ్‌ను వర్తింపజేయడానికి మనకు రెండు విషయాలు అవసరం:

ఒక వాతావరణం మరియు ఒక అనుకరణ యంత్రం (సిమ్యులేటర్) ఇది మనకు గేమ్‌ను ఎన్నో సార్లు ఆడటానికి అనుమతిస్తుంది. ఈ సిమ్యులేటర్ అన్ని గేమ్ నియమాలు, సాధ్యమైన స్థితులు మరియు చర్యలను నిర్వచిస్తుంది.
ఒక రివార్డ్ ఫంక్షన్, ఇది ప్రతి చర్య లేదా గేమ్ సమయంలో మనం ఎంత బాగా చేశామో చెపుతుంది.

ఇతర మెషీన్ లెర్నింగ్ రకాలతో RL మధ్య ప్రధాన తేడా ఏమిటంటే, RLలో మనం సాధారణంగా గేమ్ ముగిసే వరకు గెలిచామో ఓడామో తెలియదు. అందువల్ల, ఒక నిర్దిష్ట చర్య మంచిదా కాదా చెప్పలేము - గేమ్ చివరే రివార్డ్ వస్తుంది. మన లక్ష్యం అనిశ్చిత పరిస్థితులలో మోడల్‌ను శిక్షణ ఇస్తేలా అల్గోరిథమ్స్ రూపకల్పన చేయడం. మనం Q-లెర్నింగ్ అనే ఒక RL అల్గోరిథమ్ గురించి నేర్చుకుంటాము.

పాఠాలు

క్రెడిట్స్

"Introduction to Reinforcement Learning" ను ♥️ తో Dmitry Soshnikov రాశారు

అస్పష్టత:
ఈ పత్రాన్ని AI అనువాద సేవ Co-op Translator ఉపయోగించి అనువదించబడింది. మేము ఖచ్చితత్వానికి ప్రయత్నించినప్పటికీ, ఆటోమేటెడ్ అనువాదాల్లో పొరపాట్లు లేదా తప్పిదాలు ఉండవచ్చు. అసలు పత్రం దాని స్వదేశీ భాషలోనే అధికారిక మూలంగా పరిగణించాలి. ముఖ్యమైన సమాచారానికి, ప్రొఫెషనల్ మానవ అనువాదం సిఫార్సు చేయబడుతుంది. ఈ అనువాదం వాడకంలో ఏర్పడిన ఏవైనా అపార్థాలు లేదా తప్పుదారితీసే అర్థాలు కోసం మేము బాధ్యత వహించము.

11 KiB Raw Blame History