ML-For-Beginners/translations/ur/8-Reinforcement/2-Gym/assignment.md

<!--
CO_OP_TRANSLATOR_METADATA:
{
  "original_hash": "1f2b7441745eb52e25745423b247016b",
  "translation_date": "2025-08-29T14:18:07+00:00",
  "source_file": "8-Reinforcement/2-Gym/assignment.md",
  "language_code": "ur"
}
-->
# پہاڑی کار کی تربیت

[OpenAI Gym](http://gym.openai.com) اس طرح ڈیزائن کیا گیا ہے کہ تمام ماحول ایک ہی API فراہم کرتے ہیں - یعنی ایک جیسے طریقے `reset`, `step` اور `render`، اور **action space** اور **observation space** کی ایک جیسی تجریدات۔ اس طرح، یہ ممکن ہونا چاہیے کہ ایک ہی reinforcement learning الگورتھم کو مختلف ماحول میں کم سے کم کوڈ تبدیلیوں کے ساتھ اپنایا جا سکے۔

## پہاڑی کار کا ماحول

[پہاڑی کار کا ماحول](https://gym.openai.com/envs/MountainCar-v0/) ایک ایسی کار پر مشتمل ہے جو ایک وادی میں پھنس گئی ہے:

کار کو وادی سے باہر نکل کر جھنڈے تک پہنچنا ہے، اور ہر قدم پر درج ذیل میں سے ایک عمل کرنا ہے:

| قدر | مطلب |
|---|---|
| 0 | بائیں طرف تیز کریں |
| 1 | تیز نہ کریں |
| 2 | دائیں طرف تیز کریں |

اس مسئلے کا سب سے بڑا چالاکی یہ ہے کہ کار کا انجن اتنا طاقتور نہیں ہے کہ ایک ہی بار میں پہاڑ پر چڑھ سکے۔ لہٰذا، کامیاب ہونے کا واحد طریقہ یہ ہے کہ کار کو آگے پیچھے چلا کر رفتار پیدا کی جائے۔

Observation space صرف دو قدروں پر مشتمل ہے:

| نمبر | مشاہدہ | کم از کم | زیادہ سے زیادہ |
|-----|---------|----------|----------------|
|  0  | کار کی پوزیشن | -1.2 | 0.6 |
|  1  | کار کی رفتار | -0.07 | 0.07 |

پہاڑی کار کے لیے انعام کا نظام کافی پیچیدہ ہے:

 * اگر ایجنٹ جھنڈے تک پہنچ جائے (پوزیشن = 0.5) جو پہاڑ کے اوپر ہے، تو انعام 0 دیا جاتا ہے۔
 * اگر ایجنٹ کی پوزیشن 0.5 سے کم ہو، تو انعام -1 دیا جاتا ہے۔

ایپیسوڈ ختم ہو جاتا ہے اگر کار کی پوزیشن 0.5 سے زیادہ ہو، یا ایپیسوڈ کی لمبائی 200 سے زیادہ ہو۔

## ہدایات

ہمارے reinforcement learning الگورتھم کو پہاڑی کار کے مسئلے کو حل کرنے کے لیے اپنائیں۔ موجودہ [notebook.ipynb](notebook.ipynb) کوڈ سے شروع کریں، نئے ماحول کو تبدیل کریں، state discretization فنکشنز کو تبدیل کریں، اور موجودہ الگورتھم کو کم سے کم کوڈ تبدیلیوں کے ساتھ تربیت دینے کی کوشش کریں۔ نتائج کو بہتر بنانے کے لیے hyperparameters کو ایڈجسٹ کریں۔

> **نوٹ**: الگورتھم کو کامیابی سے ہمکنار کرنے کے لیے hyperparameters کی ایڈجسٹمنٹ کی ضرورت ہو سکتی ہے۔

## معیار

| معیار | مثالی | مناسب | بہتری کی ضرورت ہے |
| ------ | ------ | ------ | ------------------ |
|          | Q-Learning الگورتھم کامیابی سے CartPole مثال سے اپنایا گیا ہے، کم سے کم کوڈ تبدیلیوں کے ساتھ، جو 200 قدموں کے اندر جھنڈے کو حاصل کرنے کے مسئلے کو حل کرنے کے قابل ہے۔ | ایک نیا Q-Learning الگورتھم انٹرنیٹ سے اپنایا گیا ہے، لیکن اچھی طرح سے دستاویزی ہے؛ یا موجودہ الگورتھم اپنایا گیا ہے، لیکن مطلوبہ نتائج حاصل نہیں کرتا۔ | طالب علم کوئی الگورتھم کامیابی سے اپنانے میں کامیاب نہیں ہوا، لیکن حل کی طرف خاطر خواہ اقدامات کیے ہیں (state discretization، Q-Table ڈیٹا اسٹرکچر، وغیرہ کو نافذ کیا ہے) |

---

**ڈسکلیمر**:
یہ دستاویز AI ترجمہ سروس [Co-op Translator](https://github.com/Azure/co-op-translator) کا استعمال کرتے ہوئے ترجمہ کی گئی ہے۔ ہم درستگی کے لیے کوشش کرتے ہیں، لیکن براہ کرم آگاہ رہیں کہ خودکار ترجمے میں غلطیاں یا غیر درستیاں ہو سکتی ہیں۔ اصل دستاویز کو اس کی اصل زبان میں مستند ذریعہ سمجھا جانا چاہیے۔ اہم معلومات کے لیے، پیشہ ور انسانی ترجمہ کی سفارش کی جاتی ہے۔ ہم اس ترجمے کے استعمال سے پیدا ہونے والی کسی بھی غلط فہمی یا غلط تشریح کے ذمہ دار نہیں ہیں۔