# ایک زیادہ حقیقی دنیا ہمارے منظرنامے میں، پیٹر تقریباً بغیر تھکے یا بھوکے ہوئے ادھر ادھر گھوم سکتا تھا۔ ایک زیادہ حقیقی دنیا میں، اسے وقتاً فوقتاً بیٹھ کر آرام کرنا ہوگا اور خود کو کھلانا بھی ہوگا۔ آئیے اپنی دنیا کو زیادہ حقیقی بناتے ہیں، درج ذیل اصولوں کو نافذ کر کے: 1. ایک جگہ سے دوسری جگہ جانے پر، پیٹر **توانائی** کھو دیتا ہے اور کچھ **تھکن** حاصل کرتا ہے۔ 2. پیٹر سیب کھا کر مزید توانائی حاصل کر سکتا ہے۔ 3. پیٹر درخت کے نیچے یا گھاس پر آرام کر کے تھکن سے چھٹکارا پا سکتا ہے (یعنی ایسی جگہ پر جانا جہاں درخت یا گھاس ہو - سبز میدان)۔ 4. پیٹر کو بھیڑیا تلاش کر کے اسے مارنا ہوگا۔ 5. بھیڑیا مارنے کے لیے، پیٹر کے پاس توانائی اور تھکن کی مخصوص سطحیں ہونی چاہئیں، ورنہ وہ جنگ ہار جائے گا۔ ## ہدایات اپنے حل کے لیے اصل [notebook.ipynb](notebook.ipynb) نوٹ بک کو نقطہ آغاز کے طور پر استعمال کریں۔ اوپر دی گئی انعامی فنکشن کو کھیل کے اصولوں کے مطابق تبدیل کریں، تقویت یافتہ سیکھنے کا الگورتھم چلائیں تاکہ کھیل جیتنے کی بہترین حکمت عملی سیکھی جا سکے، اور تصادفی چال کے نتائج کا اپنے الگورتھم کے ساتھ موازنہ کریں، جیتے اور ہارے گئے کھیلوں کی تعداد کے لحاظ سے۔ > **نوٹ**: آپ کی نئی دنیا میں، حالت زیادہ پیچیدہ ہے، اور انسانی پوزیشن کے علاوہ تھکن اور توانائی کی سطحیں بھی شامل ہیں۔ آپ حالت کو ایک جوڑے (Board, energy, fatigue) کے طور پر ظاہر کرنے کا انتخاب کر سکتے ہیں، یا حالت کے لیے ایک کلاس کی تعریف کر سکتے ہیں (آپ اسے `Board` سے بھی اخذ کر سکتے ہیں)، یا اصل `Board` کلاس کو [rlboard.py](../../../../8-Reinforcement/1-QLearning/rlboard.py) میں ترمیم کر سکتے ہیں۔ اپنے حل میں، تصادفی چال کی حکمت عملی کے لیے ذمہ دار کوڈ کو برقرار رکھیں، اور آخر میں اپنے الگورتھم کے نتائج کا تصادفی چال کے ساتھ موازنہ کریں۔ > **نوٹ**: آپ کو ہائپرپیرامیٹرز کو ایڈجسٹ کرنے کی ضرورت ہو سکتی ہے تاکہ یہ کام کرے، خاص طور پر ایپوک کی تعداد۔ کیونکہ کھیل کی کامیابی (بھیڑیا سے لڑائی) ایک نایاب واقعہ ہے، آپ بہت زیادہ طویل تربیتی وقت کی توقع کر سکتے ہیں۔ ## معیار | معیار | مثالی | مناسب | بہتری کی ضرورت | | -------- | ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------------ | | | ایک نوٹ بک پیش کی گئی ہے جس میں نئی دنیا کے اصولوں کی تعریف، کیو-لرننگ الگورتھم اور کچھ متنی وضاحتیں شامل ہیں۔ کیو-لرننگ تصادفی چال کے مقابلے میں نتائج کو نمایاں طور پر بہتر کرنے کے قابل ہے۔ | نوٹ بک پیش کی گئی ہے، کیو-لرننگ نافذ کی گئی ہے اور تصادفی چال کے مقابلے میں نتائج کو بہتر بناتی ہے، لیکن نمایاں طور پر نہیں؛ یا نوٹ بک ناقص دستاویزی ہے اور کوڈ اچھی طرح سے منظم نہیں ہے۔ | دنیا کے اصولوں کو دوبارہ متعین کرنے کی کچھ کوشش کی گئی ہے، لیکن کیو-لرننگ الگورتھم کام نہیں کرتا، یا انعامی فنکشن مکمل طور پر متعین نہیں ہے۔ | --- **ڈسکلیمر**: یہ دستاویز AI ترجمہ سروس [Co-op Translator](https://github.com/Azure/co-op-translator) کا استعمال کرتے ہوئے ترجمہ کی گئی ہے۔ ہم درستگی کے لیے پوری کوشش کرتے ہیں، لیکن براہ کرم آگاہ رہیں کہ خودکار ترجمے میں غلطیاں یا خامیاں ہو سکتی ہیں۔ اصل دستاویز، جو اس کی اصل زبان میں ہے، کو مستند ذریعہ سمجھا جانا چاہیے۔ اہم معلومات کے لیے، پیشہ ور انسانی ترجمہ کی سفارش کی جاتی ہے۔ اس ترجمے کے استعمال سے پیدا ہونے والی کسی بھی غلط فہمی یا غلط تشریح کے لیے ہم ذمہ دار نہیں ہیں۔