You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
41 lines
6.0 KiB
41 lines
6.0 KiB
<!--
|
|
CO_OP_TRANSLATOR_METADATA:
|
|
{
|
|
"original_hash": "68394b2102d3503882e5e914bd0ff5c1",
|
|
"translation_date": "2025-09-04T00:24:37+00:00",
|
|
"source_file": "8-Reinforcement/1-QLearning/assignment.md",
|
|
"language_code": "fa"
|
|
}
|
|
-->
|
|
# دنیایی واقعیتر
|
|
|
|
در شرایط ما، پیتر تقریباً بدون خستگی یا گرسنگی میتوانست حرکت کند. در یک دنیای واقعیتر، او باید هر از گاهی بنشیند و استراحت کند و همچنین خودش را تغذیه کند. بیایید دنیای خود را واقعیتر کنیم با اعمال قوانین زیر:
|
|
|
|
1. با حرکت از یک مکان به مکان دیگر، پیتر **انرژی** از دست میدهد و مقداری **خستگی** به دست میآورد.
|
|
2. پیتر میتواند با خوردن سیب انرژی بیشتری کسب کند.
|
|
3. پیتر میتواند با استراحت زیر درخت یا روی چمن (یعنی رفتن به مکانی روی تخته که درخت یا چمن دارد - میدان سبز) از خستگی خلاص شود.
|
|
4. پیتر باید گرگ را پیدا کرده و بکشد.
|
|
5. برای کشتن گرگ، پیتر باید سطح مشخصی از انرژی و خستگی داشته باشد، در غیر این صورت نبرد را میبازد.
|
|
|
|
## دستورالعملها
|
|
|
|
از [notebook.ipynb](notebook.ipynb) اصلی به عنوان نقطه شروع برای راهحل خود استفاده کنید.
|
|
|
|
تابع پاداش را مطابق با قوانین بازی که در بالا ذکر شد تغییر دهید، الگوریتم یادگیری تقویتی را اجرا کنید تا بهترین استراتژی برای برنده شدن در بازی را یاد بگیرید، و نتایج حرکت تصادفی را با الگوریتم خود از نظر تعداد بازیهای برده و باخته مقایسه کنید.
|
|
|
|
> **Note**: در دنیای جدید شما، وضعیت پیچیدهتر است و علاوه بر موقعیت انسان، شامل سطح خستگی و انرژی نیز میشود. شما میتوانید وضعیت را به صورت یک تاپل (Board,energy,fatigue) نمایش دهید، یا یک کلاس برای وضعیت تعریف کنید (همچنین میتوانید آن را از `Board` مشتق کنید)، یا حتی کلاس اصلی `Board` را در [rlboard.py](../../../../8-Reinforcement/1-QLearning/rlboard.py) تغییر دهید.
|
|
|
|
در راهحل خود، لطفاً کدی که مسئول استراتژی حرکت تصادفی است را نگه دارید و در پایان نتایج الگوریتم خود را با حرکت تصادفی مقایسه کنید.
|
|
|
|
> **Note**: ممکن است نیاز باشد که هایپرپارامترها را تنظیم کنید تا الگوریتم کار کند، به خصوص تعداد اپوکها. از آنجا که موفقیت در بازی (مبارزه با گرگ) یک رویداد نادر است، میتوانید انتظار زمان آموزش طولانیتری داشته باشید.
|
|
|
|
## معیار ارزیابی
|
|
|
|
| معیار | عالی | کافی | نیاز به بهبود |
|
|
| ----------- | ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | -------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------------ |
|
|
| | یک نوتبوک ارائه شده است که شامل تعریف قوانین جدید دنیا، الگوریتم Q-Learning و توضیحات متنی است. الگوریتم Q-Learning به طور قابل توجهی نتایج را در مقایسه با حرکت تصادفی بهبود میبخشد. | نوتبوک ارائه شده است، الگوریتم Q-Learning پیادهسازی شده و نتایج را در مقایسه با حرکت تصادفی بهبود میبخشد، اما به طور قابل توجهی نیست؛ یا نوتبوک به خوبی مستندسازی نشده و کد ساختار خوبی ندارد. | تلاشهایی برای تعریف مجدد قوانین دنیا انجام شده است، اما الگوریتم Q-Learning کار نمیکند، یا تابع پاداش به طور کامل تعریف نشده است. |
|
|
|
|
---
|
|
|
|
**سلب مسئولیت**:
|
|
این سند با استفاده از سرویس ترجمه هوش مصنوعی [Co-op Translator](https://github.com/Azure/co-op-translator) ترجمه شده است. در حالی که ما تلاش میکنیم دقت را حفظ کنیم، لطفاً توجه داشته باشید که ترجمههای خودکار ممکن است شامل خطاها یا نادرستیها باشند. سند اصلی به زبان اصلی آن باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حساس، توصیه میشود از ترجمه حرفهای انسانی استفاده کنید. ما مسئولیتی در قبال سوءتفاهمها یا تفسیرهای نادرست ناشی از استفاده از این ترجمه نداریم. |