History

leestott e4050807fb 🌐 Update translations via Co-op Translator		3 weeks ago
..
1-QLearning	🌐 Update translations via Co-op Translator	3 weeks ago
2-Gym	🌐 Update translations via Co-op Translator	3 weeks ago
README.md	🌐 Update translations via Co-op Translator	3 weeks ago

README.md

مقدمه‌ای بر یادگیری تقویتی

یادگیری تقویتی (RL) یکی از الگوهای اصلی یادگیری ماشین محسوب می‌شود، در کنار یادگیری نظارت‌شده و یادگیری بدون نظارت. RL تماماً درباره تصمیم‌گیری است: گرفتن تصمیمات درست یا حداقل یادگیری از آن‌ها.

تصور کنید یک محیط شبیه‌سازی‌شده مثل بازار سهام دارید. اگر یک قانون خاص اعمال کنید، چه اتفاقی می‌افتد؟ آیا اثر مثبت دارد یا منفی؟ اگر اتفاقی منفی رخ دهد، باید از این تقویت منفی درس بگیرید و مسیر خود را تغییر دهید. اگر نتیجه مثبت باشد، باید بر اساس آن تقویت مثبت پیش بروید.

پیتر و دوستانش باید از گرگ گرسنه فرار کنند! تصویر از Jen Looper

موضوع منطقه‌ای: پیتر و گرگ (روسیه)

پیتر و گرگ یک داستان موسیقایی است که توسط آهنگساز روسی سرگئی پروکفیف نوشته شده است. این داستان درباره پیشاهنگ جوانی به نام پیتر است که شجاعانه از خانه‌اش بیرون می‌رود تا در جنگل گرگ را دنبال کند. در این بخش، الگوریتم‌های یادگیری ماشین را آموزش خواهیم داد که به پیتر کمک کنند:

کاوش در منطقه اطراف و ساخت یک نقشه ناوبری بهینه
یادگیری نحوه استفاده از اسکیت‌برد و حفظ تعادل روی آن برای حرکت سریع‌تر.

🎥 روی تصویر بالا کلیک کنید تا به موسیقی پیتر و گرگ اثر پروکفیف گوش دهید

یادگیری تقویتی

در بخش‌های قبلی، دو مثال از مسائل یادگیری ماشین را مشاهده کردید:

نظارت‌شده، که در آن مجموعه داده‌هایی داریم که راه‌حل‌های نمونه‌ای برای مسئله‌ای که می‌خواهیم حل کنیم پیشنهاد می‌دهند. دسته‌بندی و رگرسیون وظایف یادگیری نظارت‌شده هستند.
بدون نظارت، که در آن داده‌های آموزشی برچسب‌گذاری‌شده نداریم. مثال اصلی یادگیری بدون نظارت خوشه‌بندی است.

در این بخش، شما را با نوع جدیدی از مسئله یادگیری آشنا خواهیم کرد که نیازی به داده‌های آموزشی برچسب‌گذاری‌شده ندارد. چند نوع از این مسائل وجود دارد:

یادگیری نیمه‌نظارت‌شده، که در آن مقدار زیادی داده بدون برچسب داریم که می‌توانند برای پیش‌آموزش مدل استفاده شوند.
یادگیری تقویتی، که در آن یک عامل از طریق انجام آزمایش‌ها در یک محیط شبیه‌سازی‌شده یاد می‌گیرد چگونه رفتار کند.

مثال - بازی کامپیوتری

فرض کنید می‌خواهید به یک کامپیوتر آموزش دهید که یک بازی مثل شطرنج یا سوپر ماریو را بازی کند. برای اینکه کامپیوتر بتواند بازی کند، باید پیش‌بینی کند که در هر وضعیت بازی چه حرکتی انجام دهد. در حالی که این ممکن است شبیه یک مسئله دسته‌بندی به نظر برسد، اینطور نیست - زیرا ما مجموعه داده‌ای با وضعیت‌ها و اقدامات مربوطه نداریم. حتی اگر داده‌هایی مثل مسابقات شطرنج موجود یا ضبط بازی‌های سوپر ماریو داشته باشیم، احتمالاً این داده‌ها تعداد کافی از وضعیت‌های ممکن را پوشش نمی‌دهند.

به جای جستجوی داده‌های موجود بازی، یادگیری تقویتی (RL) بر اساس ایده بازی کردن کامپیوتر بارها و مشاهده نتیجه است. بنابراین، برای اعمال یادگیری تقویتی، به دو چیز نیاز داریم:

یک محیط و یک شبیه‌ساز که به ما اجازه دهد بازی را بارها انجام دهیم. این شبیه‌ساز باید تمام قوانین بازی و همچنین وضعیت‌ها و اقدامات ممکن را تعریف کند.
یک تابع پاداش که به ما بگوید در هر حرکت یا بازی چقدر خوب عمل کرده‌ایم.

تفاوت اصلی بین سایر انواع یادگیری ماشین و RL این است که در RL معمولاً نمی‌دانیم که آیا برنده می‌شویم یا می‌بازیم تا زمانی که بازی تمام شود. بنابراین، نمی‌توانیم بگوییم که یک حرکت خاص به تنهایی خوب است یا نه - فقط در پایان بازی پاداش دریافت می‌کنیم. هدف ما طراحی الگوریتم‌هایی است که به ما اجازه دهند مدل را تحت شرایط نامطمئن آموزش دهیم. ما درباره یک الگوریتم RL به نام Q-learning یاد خواهیم گرفت.

درس‌ها

اعتبارها

"مقدمه‌ای بر یادگیری تقویتی" با ♥️ توسط Dmitry Soshnikov نوشته شده است.

سلب مسئولیت:
این سند با استفاده از سرویس ترجمه هوش مصنوعی Co-op Translator ترجمه شده است. در حالی که ما برای دقت تلاش می‌کنیم، لطفاً توجه داشته باشید که ترجمه‌های خودکار ممکن است شامل خطاها یا نادقتی‌هایی باشند. سند اصلی به زبان اصلی آن باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حساس، ترجمه حرفه‌ای انسانی توصیه می‌شود. ما هیچ مسئولیتی در قبال سوءتفاهم‌ها یا تفسیرهای نادرست ناشی از استفاده از این ترجمه نداریم.