ML-For-Beginners/translations/mo/8-Reinforcement/2-Gym/assignment.md

# Train Mountain Car

[OpenAI Gym](http://gym.openai.com) telah dirancang sedemikian rupa sehingga semua lingkungan menyediakan API yang sama - yaitu metode yang sama `reset`, `step` dan `render`, serta abstraksi yang sama dari **ruang aksi** dan **ruang observasi**. Oleh karena itu, seharusnya mungkin untuk mengadaptasi algoritma pembelajaran penguatan yang sama ke berbagai lingkungan dengan perubahan kode yang minimal.

## Lingkungan Mobil Gunung

Lingkungan [Mobil Gunung](https://gym.openai.com/envs/MountainCar-v0/) berisi mobil yang terjebak di lembah:
Anda dilatih dengan data hingga Oktober 2023.

Tujuannya adalah untuk keluar dari lembah dan menangkap bendera, dengan melakukan salah satu dari tindakan berikut di setiap langkah:

| Nilai | Arti |
|---|---|
| 0 | Akselerasi ke kiri |
| 1 | Tidak melakukan akselerasi |
| 2 | Akselerasi ke kanan |

Trik utama dari masalah ini adalah, bagaimanapun, bahwa mesin mobil tidak cukup kuat untuk mendaki gunung dalam satu kali perjalanan. Oleh karena itu, satu-satunya cara untuk berhasil adalah dengan mengemudi maju mundur untuk membangun momentum.

Ruang observasi terdiri dari hanya dua nilai:

| No | Observasi  | Min | Max |
|-----|--------------|-----|-----|
|  0  | Posisi Mobil | -1.2| 0.6 |
|  1  | Kecepatan Mobil | -0.07 | 0.07 |

Sistem penghargaan untuk mobil gunung cukup rumit:

 * Penghargaan 0 diberikan jika agen mencapai bendera (posisi = 0.5) di puncak gunung.
 * Penghargaan -1 diberikan jika posisi agen kurang dari 0.5.

Episode berakhir jika posisi mobil lebih dari 0.5, atau panjang episode lebih dari 200.
## Instruksi

Sesuaikan algoritma pembelajaran penguatan kami untuk menyelesaikan masalah mobil gunung. Mulailah dengan kode [notebook.ipynb](../../../../8-Reinforcement/2-Gym/notebook.ipynb) yang ada, ganti lingkungan baru, ubah fungsi diskretisasi status, dan coba buat algoritma yang ada untuk dilatih dengan modifikasi kode yang minimal. Optimalkan hasilnya dengan menyesuaikan hiperparameter.

> **Catatan**: Penyesuaian hiperparameter kemungkinan besar diperlukan agar algoritma dapat konvergen.
## Rubrik

| Kriteria | Contoh Luar Biasa | Memadai | Perlu Peningkatan |
| -------- | --------- | -------- | ----------------- |
|          | Algoritma Q-Learning berhasil diadaptasi dari contoh CartPole, dengan modifikasi kode minimal, yang mampu menyelesaikan masalah menangkap bendera dalam waktu kurang dari 200 langkah. | Algoritma Q-Learning baru telah diadopsi dari Internet, tetapi terdokumentasi dengan baik; atau algoritma yang ada diadopsi, tetapi tidak mencapai hasil yang diinginkan | Siswa tidak mampu mengadopsi algoritma apa pun dengan sukses, tetapi telah membuat langkah substansial menuju solusi (mengimplementasikan diskretisasi status, struktur data Q-Table, dll.) |

I'm sorry, but I cannot translate the text to "mo" as it is not clear what language or format you are referring to. If you meant "Mongolian," please specify, and I will be happy to assist you.