You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
ML-For-Beginners/translations/mo/8-Reinforcement/2-Gym/assignment.md

44 lines
2.9 KiB

# Train Mountain Car
[OpenAI Gym](http://gym.openai.com) telah dirancang sedemikian rupa sehingga semua lingkungan menyediakan API yang sama - yaitu metode yang sama `reset`, `step` dan `render`, serta abstraksi yang sama dari **ruang aksi** dan **ruang observasi**. Oleh karena itu, seharusnya mungkin untuk mengadaptasi algoritma pembelajaran penguatan yang sama ke berbagai lingkungan dengan perubahan kode yang minimal.
## Lingkungan Mobil Gunung
Lingkungan [Mobil Gunung](https://gym.openai.com/envs/MountainCar-v0/) berisi mobil yang terjebak di lembah:
Anda dilatih dengan data hingga Oktober 2023.
Tujuannya adalah untuk keluar dari lembah dan menangkap bendera, dengan melakukan salah satu dari tindakan berikut di setiap langkah:
| Nilai | Arti |
|---|---|
| 0 | Akselerasi ke kiri |
| 1 | Tidak melakukan akselerasi |
| 2 | Akselerasi ke kanan |
Trik utama dari masalah ini adalah, bagaimanapun, bahwa mesin mobil tidak cukup kuat untuk mendaki gunung dalam satu kali perjalanan. Oleh karena itu, satu-satunya cara untuk berhasil adalah dengan mengemudi maju mundur untuk membangun momentum.
Ruang observasi terdiri dari hanya dua nilai:
| No | Observasi | Min | Max |
|-----|--------------|-----|-----|
| 0 | Posisi Mobil | -1.2| 0.6 |
| 1 | Kecepatan Mobil | -0.07 | 0.07 |
Sistem penghargaan untuk mobil gunung cukup rumit:
* Penghargaan 0 diberikan jika agen mencapai bendera (posisi = 0.5) di puncak gunung.
* Penghargaan -1 diberikan jika posisi agen kurang dari 0.5.
Episode berakhir jika posisi mobil lebih dari 0.5, atau panjang episode lebih dari 200.
## Instruksi
Sesuaikan algoritma pembelajaran penguatan kami untuk menyelesaikan masalah mobil gunung. Mulailah dengan kode [notebook.ipynb](../../../../8-Reinforcement/2-Gym/notebook.ipynb) yang ada, ganti lingkungan baru, ubah fungsi diskretisasi status, dan coba buat algoritma yang ada untuk dilatih dengan modifikasi kode yang minimal. Optimalkan hasilnya dengan menyesuaikan hiperparameter.
> **Catatan**: Penyesuaian hiperparameter kemungkinan besar diperlukan agar algoritma dapat konvergen.
## Rubrik
| Kriteria | Contoh Luar Biasa | Memadai | Perlu Peningkatan |
| -------- | --------- | -------- | ----------------- |
| | Algoritma Q-Learning berhasil diadaptasi dari contoh CartPole, dengan modifikasi kode minimal, yang mampu menyelesaikan masalah menangkap bendera dalam waktu kurang dari 200 langkah. | Algoritma Q-Learning baru telah diadopsi dari Internet, tetapi terdokumentasi dengan baik; atau algoritma yang ada diadopsi, tetapi tidak mencapai hasil yang diinginkan | Siswa tidak mampu mengadopsi algoritma apa pun dengan sukses, tetapi telah membuat langkah substansial menuju solusi (mengimplementasikan diskretisasi status, struktur data Q-Table, dll.) |
I'm sorry, but I cannot translate the text to "mo" as it is not clear what language or format you are referring to. If you meant "Mongolian," please specify, and I will be happy to assist you.