|
3 weeks ago | |
---|---|---|
.. | ||
1-QLearning | 3 weeks ago | |
2-Gym | 3 weeks ago | |
README.md | 3 weeks ago |
README.md
مقدمهای بر یادگیری تقویتی
یادگیری تقویتی (RL) یکی از الگوهای اصلی یادگیری ماشین محسوب میشود، در کنار یادگیری نظارتشده و یادگیری بدون نظارت. RL تماماً درباره تصمیمگیری است: گرفتن تصمیمات درست یا حداقل یادگیری از آنها.
تصور کنید یک محیط شبیهسازیشده مثل بازار سهام دارید. اگر یک قانون خاص اعمال کنید، چه اتفاقی میافتد؟ آیا اثر مثبت دارد یا منفی؟ اگر اتفاقی منفی رخ دهد، باید از این تقویت منفی درس بگیرید و مسیر خود را تغییر دهید. اگر نتیجه مثبت باشد، باید بر اساس آن تقویت مثبت پیش بروید.
پیتر و دوستانش باید از گرگ گرسنه فرار کنند! تصویر از Jen Looper
موضوع منطقهای: پیتر و گرگ (روسیه)
پیتر و گرگ یک داستان موسیقایی است که توسط آهنگساز روسی سرگئی پروکفیف نوشته شده است. این داستان درباره پیشاهنگ جوانی به نام پیتر است که شجاعانه از خانهاش بیرون میرود تا در جنگل گرگ را دنبال کند. در این بخش، الگوریتمهای یادگیری ماشین را آموزش خواهیم داد که به پیتر کمک کنند:
- کاوش در منطقه اطراف و ساخت یک نقشه ناوبری بهینه
- یادگیری نحوه استفاده از اسکیتبرد و حفظ تعادل روی آن برای حرکت سریعتر.
🎥 روی تصویر بالا کلیک کنید تا به موسیقی پیتر و گرگ اثر پروکفیف گوش دهید
یادگیری تقویتی
در بخشهای قبلی، دو مثال از مسائل یادگیری ماشین را مشاهده کردید:
- نظارتشده، که در آن مجموعه دادههایی داریم که راهحلهای نمونهای برای مسئلهای که میخواهیم حل کنیم پیشنهاد میدهند. دستهبندی و رگرسیون وظایف یادگیری نظارتشده هستند.
- بدون نظارت، که در آن دادههای آموزشی برچسبگذاریشده نداریم. مثال اصلی یادگیری بدون نظارت خوشهبندی است.
در این بخش، شما را با نوع جدیدی از مسئله یادگیری آشنا خواهیم کرد که نیازی به دادههای آموزشی برچسبگذاریشده ندارد. چند نوع از این مسائل وجود دارد:
- یادگیری نیمهنظارتشده، که در آن مقدار زیادی داده بدون برچسب داریم که میتوانند برای پیشآموزش مدل استفاده شوند.
- یادگیری تقویتی، که در آن یک عامل از طریق انجام آزمایشها در یک محیط شبیهسازیشده یاد میگیرد چگونه رفتار کند.
مثال - بازی کامپیوتری
فرض کنید میخواهید به یک کامپیوتر آموزش دهید که یک بازی مثل شطرنج یا سوپر ماریو را بازی کند. برای اینکه کامپیوتر بتواند بازی کند، باید پیشبینی کند که در هر وضعیت بازی چه حرکتی انجام دهد. در حالی که این ممکن است شبیه یک مسئله دستهبندی به نظر برسد، اینطور نیست - زیرا ما مجموعه دادهای با وضعیتها و اقدامات مربوطه نداریم. حتی اگر دادههایی مثل مسابقات شطرنج موجود یا ضبط بازیهای سوپر ماریو داشته باشیم، احتمالاً این دادهها تعداد کافی از وضعیتهای ممکن را پوشش نمیدهند.
به جای جستجوی دادههای موجود بازی، یادگیری تقویتی (RL) بر اساس ایده بازی کردن کامپیوتر بارها و مشاهده نتیجه است. بنابراین، برای اعمال یادگیری تقویتی، به دو چیز نیاز داریم:
-
یک محیط و یک شبیهساز که به ما اجازه دهد بازی را بارها انجام دهیم. این شبیهساز باید تمام قوانین بازی و همچنین وضعیتها و اقدامات ممکن را تعریف کند.
-
یک تابع پاداش که به ما بگوید در هر حرکت یا بازی چقدر خوب عمل کردهایم.
تفاوت اصلی بین سایر انواع یادگیری ماشین و RL این است که در RL معمولاً نمیدانیم که آیا برنده میشویم یا میبازیم تا زمانی که بازی تمام شود. بنابراین، نمیتوانیم بگوییم که یک حرکت خاص به تنهایی خوب است یا نه - فقط در پایان بازی پاداش دریافت میکنیم. هدف ما طراحی الگوریتمهایی است که به ما اجازه دهند مدل را تحت شرایط نامطمئن آموزش دهیم. ما درباره یک الگوریتم RL به نام Q-learning یاد خواهیم گرفت.
درسها
اعتبارها
"مقدمهای بر یادگیری تقویتی" با ♥️ توسط Dmitry Soshnikov نوشته شده است.
سلب مسئولیت:
این سند با استفاده از سرویس ترجمه هوش مصنوعی Co-op Translator ترجمه شده است. در حالی که ما برای دقت تلاش میکنیم، لطفاً توجه داشته باشید که ترجمههای خودکار ممکن است شامل خطاها یا نادقتیهایی باشند. سند اصلی به زبان اصلی آن باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حساس، ترجمه حرفهای انسانی توصیه میشود. ما هیچ مسئولیتی در قبال سوءتفاهمها یا تفسیرهای نادرست ناشی از استفاده از این ترجمه نداریم.