# دنیایی واقعی‌تر در شرایط ما، پیتر تقریباً بدون خستگی یا گرسنگی می‌توانست حرکت کند. در یک دنیای واقعی‌تر، او باید هر از گاهی بنشیند و استراحت کند و همچنین خودش را تغذیه کند. بیایید دنیای خود را واقعی‌تر کنیم با اعمال قوانین زیر: 1. با حرکت از یک مکان به مکان دیگر، پیتر **انرژی** از دست می‌دهد و مقداری **خستگی** به دست می‌آورد. 2. پیتر می‌تواند با خوردن سیب انرژی بیشتری کسب کند. 3. پیتر می‌تواند با استراحت زیر درخت یا روی چمن (یعنی رفتن به مکانی روی تخته که درخت یا چمن دارد - میدان سبز) از خستگی خلاص شود. 4. پیتر باید گرگ را پیدا کرده و بکشد. 5. برای کشتن گرگ، پیتر باید سطح مشخصی از انرژی و خستگی داشته باشد، در غیر این صورت نبرد را می‌بازد. ## دستورالعمل‌ها از [notebook.ipynb](notebook.ipynb) اصلی به عنوان نقطه شروع برای راه‌حل خود استفاده کنید. تابع پاداش را مطابق با قوانین بازی که در بالا ذکر شد تغییر دهید، الگوریتم یادگیری تقویتی را اجرا کنید تا بهترین استراتژی برای برنده شدن در بازی را یاد بگیرید، و نتایج حرکت تصادفی را با الگوریتم خود از نظر تعداد بازی‌های برده و باخته مقایسه کنید. > **Note**: در دنیای جدید شما، وضعیت پیچیده‌تر است و علاوه بر موقعیت انسان، شامل سطح خستگی و انرژی نیز می‌شود. شما می‌توانید وضعیت را به صورت یک تاپل (Board,energy,fatigue) نمایش دهید، یا یک کلاس برای وضعیت تعریف کنید (همچنین می‌توانید آن را از `Board` مشتق کنید)، یا حتی کلاس اصلی `Board` را در [rlboard.py](../../../../8-Reinforcement/1-QLearning/rlboard.py) تغییر دهید. در راه‌حل خود، لطفاً کدی که مسئول استراتژی حرکت تصادفی است را نگه دارید و در پایان نتایج الگوریتم خود را با حرکت تصادفی مقایسه کنید. > **Note**: ممکن است نیاز باشد که هایپرپارامترها را تنظیم کنید تا الگوریتم کار کند، به خصوص تعداد اپوک‌ها. از آنجا که موفقیت در بازی (مبارزه با گرگ) یک رویداد نادر است، می‌توانید انتظار زمان آموزش طولانی‌تری داشته باشید. ## معیار ارزیابی | معیار | عالی | کافی | نیاز به بهبود | | ----------- | ---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | -------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------------ | | | یک نوت‌بوک ارائه شده است که شامل تعریف قوانین جدید دنیا، الگوریتم Q-Learning و توضیحات متنی است. الگوریتم Q-Learning به طور قابل توجهی نتایج را در مقایسه با حرکت تصادفی بهبود می‌بخشد. | نوت‌بوک ارائه شده است، الگوریتم Q-Learning پیاده‌سازی شده و نتایج را در مقایسه با حرکت تصادفی بهبود می‌بخشد، اما به طور قابل توجهی نیست؛ یا نوت‌بوک به خوبی مستندسازی نشده و کد ساختار خوبی ندارد. | تلاش‌هایی برای تعریف مجدد قوانین دنیا انجام شده است، اما الگوریتم Q-Learning کار نمی‌کند، یا تابع پاداش به طور کامل تعریف نشده است. | --- **سلب مسئولیت**: این سند با استفاده از سرویس ترجمه هوش مصنوعی [Co-op Translator](https://github.com/Azure/co-op-translator) ترجمه شده است. در حالی که ما تلاش می‌کنیم دقت را حفظ کنیم، لطفاً توجه داشته باشید که ترجمه‌های خودکار ممکن است شامل خطاها یا نادرستی‌ها باشند. سند اصلی به زبان اصلی آن باید به عنوان منبع معتبر در نظر گرفته شود. برای اطلاعات حساس، توصیه می‌شود از ترجمه حرفه‌ای انسانی استفاده کنید. ما مسئولیتی در قبال سوءتفاهم‌ها یا تفسیرهای نادرست ناشی از استفاده از این ترجمه نداریم.