|
2 weeks ago | |
---|---|---|
.. | ||
1-QLearning | 2 weeks ago | |
2-Gym | 2 weeks ago | |
README.md | 3 weeks ago |
README.md
تعارف ری انفورسمنٹ لرننگ
ری انفورسمنٹ لرننگ، RL، مشین لرننگ کے بنیادی طریقوں میں سے ایک سمجھا جاتا ہے، جیسے سپروائزڈ لرننگ اور ان سپروائزڈ لرننگ۔ RL فیصلوں کے بارے میں ہے: صحیح فیصلے دینا یا کم از کم ان سے سیکھنا۔
تصور کریں کہ آپ کے پاس ایک تخیلاتی ماحول ہے جیسے اسٹاک مارکیٹ۔ اگر آپ کوئی خاص قانون نافذ کریں تو کیا ہوتا ہے؟ کیا اس کا مثبت یا منفی اثر ہوتا ہے؟ اگر کچھ منفی ہوتا ہے، تو آپ کو اس منفی ری انفورسمنٹ کو لینا، اس سے سیکھنا، اور راستہ بدلنا ہوگا۔ اگر نتیجہ مثبت ہو، تو آپ کو اس مثبت ری انفورسمنٹ پر کام کرنا ہوگا۔
پیٹر اور اس کے دوستوں کو بھوکے بھیڑیے سے بچنا ہے! تصویر Jen Looper کی جانب سے
علاقائی موضوع: پیٹر اور بھیڑیا (روس)
پیٹر اور بھیڑیا ایک موسیقی پر مبنی کہانی ہے جو روسی کمپوزر سرگئی پروکوفیف نے لکھی۔ یہ کہانی نوجوان پیٹر کے بارے میں ہے، جو بہادری سے اپنے گھر سے باہر جنگل کے کنارے بھیڑیے کا پیچھا کرنے نکلتا ہے۔ اس حصے میں، ہم مشین لرننگ الگورتھمز کو تربیت دیں گے جو پیٹر کی مدد کریں گے:
- تلاش کریں ارد گرد کے علاقے کو اور ایک بہترین نیویگیشن نقشہ بنائیں۔
- سیکھیں اسکیٹ بورڈ کا استعمال اور اس پر توازن قائم کرنا، تاکہ تیزی سے حرکت کی جا سکے۔
🎥 اوپر دی گئی تصویر پر کلک کریں اور پروکوفیف کی "پیٹر اور بھیڑیا" سنیں۔
ری انفورسمنٹ لرننگ
پچھلے حصوں میں، آپ نے مشین لرننگ کے دو مسائل کے مثالیں دیکھی ہیں:
- سپروائزڈ، جہاں ہمارے پاس ڈیٹا سیٹس ہوتے ہیں جو اس مسئلے کے نمونہ حل تجویز کرتے ہیں جسے ہم حل کرنا چاہتے ہیں۔ کلاسیفیکیشن اور ریگریشن سپروائزڈ لرننگ کے کام ہیں۔
- ان سپروائزڈ، جس میں ہمارے پاس لیبل شدہ تربیتی ڈیٹا نہیں ہوتا۔ ان سپروائزڈ لرننگ کی اہم مثال کلسٹرنگ ہے۔
اس حصے میں، ہم آپ کو ایک نئے قسم کے لرننگ مسئلے سے متعارف کرائیں گے جس کے لیے لیبل شدہ تربیتی ڈیٹا کی ضرورت نہیں ہوتی۔ ایسے مسائل کی کئی اقسام ہیں:
- سیمی سپروائزڈ لرننگ، جہاں ہمارے پاس بہت سا غیر لیبل شدہ ڈیٹا ہوتا ہے جو ماڈل کو پری ٹرین کرنے کے لیے استعمال کیا جا سکتا ہے۔
- ری انفورسمنٹ لرننگ، جس میں ایک ایجنٹ تجربات کر کے کسی تخیلاتی ماحول میں سیکھتا ہے کہ کیسے برتاؤ کرنا ہے۔
مثال - کمپیوٹر گیم
فرض کریں آپ کمپیوٹر کو گیم کھیلنا سکھانا چاہتے ہیں، جیسے شطرنج یا سپر ماریو۔ کمپیوٹر کو گیم کھیلنے کے لیے، ہمیں یہ پیش گوئی کرنے کی ضرورت ہے کہ ہر گیم اسٹیٹ میں کون سا اقدام کرنا ہے۔ اگرچہ یہ کلاسیفیکیشن مسئلہ لگ سکتا ہے، لیکن ایسا نہیں ہے - کیونکہ ہمارے پاس اسٹیٹس اور متعلقہ ایکشنز کے ساتھ ڈیٹا سیٹ نہیں ہے۔ اگرچہ ہمارے پاس کچھ ڈیٹا ہو سکتا ہے جیسے موجودہ شطرنج کے میچز یا سپر ماریو کھیلنے والے کھلاڑیوں کی ریکارڈنگ، لیکن ممکن ہے کہ وہ ڈیٹا کافی تعداد میں ممکنہ اسٹیٹس کو کور نہ کرے۔
موجودہ گیم ڈیٹا تلاش کرنے کے بجائے، ری انفورسمنٹ لرننگ (RL) اس خیال پر مبنی ہے کہ کمپیوٹر کو بار بار کھیلنے دیا جائے اور نتیجہ دیکھا جائے۔ لہذا، ری انفورسمنٹ لرننگ کو اپلائی کرنے کے لیے ہمیں دو چیزوں کی ضرورت ہوتی ہے:
-
ایک ماحول اور ایک سیمولیٹر جو ہمیں گیم کو بار بار کھیلنے کی اجازت دے۔ یہ سیمولیٹر تمام گیم کے اصولوں، ممکنہ اسٹیٹس، اور ایکشنز کی وضاحت کرے گا۔
-
ایک انعامی فنکشن، جو ہمیں بتائے گا کہ ہر اقدام یا گیم کے دوران ہم نے کتنا اچھا کیا۔
مشین لرننگ کی دیگر اقسام اور RL کے درمیان بنیادی فرق یہ ہے کہ RL میں ہمیں عام طور پر یہ معلوم نہیں ہوتا کہ ہم جیتے یا ہارے جب تک گیم ختم نہ ہو جائے۔ لہذا، ہم یہ نہیں کہہ سکتے کہ کوئی خاص اقدام اکیلا اچھا ہے یا نہیں - ہمیں صرف گیم کے آخر میں انعام ملتا ہے۔ اور ہمارا مقصد ایسے الگورتھمز ڈیزائن کرنا ہے جو غیر یقینی حالات میں ماڈل کو تربیت دینے کی اجازت دیں۔ ہم ایک RL الگورتھم کے بارے میں سیکھیں گے جسے Q-لرننگ کہتے ہیں۔
اسباق
کریڈٹس
"ری انفورسمنٹ لرننگ کا تعارف" کو ♥️ کے ساتھ Dmitry Soshnikov نے لکھا۔
ڈس کلیمر:
یہ دستاویز AI ترجمہ سروس Co-op Translator کا استعمال کرتے ہوئے ترجمہ کی گئی ہے۔ ہم درستگی کے لیے پوری کوشش کرتے ہیں، لیکن براہ کرم آگاہ رہیں کہ خودکار ترجمے میں غلطیاں یا خامیاں ہو سکتی ہیں۔ اصل دستاویز، جو اس کی مقامی زبان میں ہے، کو مستند ذریعہ سمجھا جانا چاہیے۔ اہم معلومات کے لیے، پیشہ ور انسانی ترجمہ کی سفارش کی جاتی ہے۔ اس ترجمے کے استعمال سے پیدا ہونے والی کسی بھی غلط فہمی یا غلط تشریح کے لیے ہم ذمہ دار نہیں ہیں۔