You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
44 lines
2.9 KiB
44 lines
2.9 KiB
# Train Mountain Car
|
|
|
|
[OpenAI Gym](http://gym.openai.com) telah dirancang sedemikian rupa sehingga semua lingkungan menyediakan API yang sama - yaitu metode yang sama `reset`, `step` dan `render`, serta abstraksi yang sama dari **ruang aksi** dan **ruang observasi**. Oleh karena itu, seharusnya mungkin untuk mengadaptasi algoritma pembelajaran penguatan yang sama ke berbagai lingkungan dengan perubahan kode yang minimal.
|
|
|
|
## Lingkungan Mobil Gunung
|
|
|
|
Lingkungan [Mobil Gunung](https://gym.openai.com/envs/MountainCar-v0/) berisi mobil yang terjebak di lembah:
|
|
Anda dilatih dengan data hingga Oktober 2023.
|
|
|
|
Tujuannya adalah untuk keluar dari lembah dan menangkap bendera, dengan melakukan salah satu dari tindakan berikut di setiap langkah:
|
|
|
|
| Nilai | Arti |
|
|
|---|---|
|
|
| 0 | Akselerasi ke kiri |
|
|
| 1 | Tidak melakukan akselerasi |
|
|
| 2 | Akselerasi ke kanan |
|
|
|
|
Trik utama dari masalah ini adalah, bagaimanapun, bahwa mesin mobil tidak cukup kuat untuk mendaki gunung dalam satu kali perjalanan. Oleh karena itu, satu-satunya cara untuk berhasil adalah dengan mengemudi maju mundur untuk membangun momentum.
|
|
|
|
Ruang observasi terdiri dari hanya dua nilai:
|
|
|
|
| No | Observasi | Min | Max |
|
|
|-----|--------------|-----|-----|
|
|
| 0 | Posisi Mobil | -1.2| 0.6 |
|
|
| 1 | Kecepatan Mobil | -0.07 | 0.07 |
|
|
|
|
Sistem penghargaan untuk mobil gunung cukup rumit:
|
|
|
|
* Penghargaan 0 diberikan jika agen mencapai bendera (posisi = 0.5) di puncak gunung.
|
|
* Penghargaan -1 diberikan jika posisi agen kurang dari 0.5.
|
|
|
|
Episode berakhir jika posisi mobil lebih dari 0.5, atau panjang episode lebih dari 200.
|
|
## Instruksi
|
|
|
|
Sesuaikan algoritma pembelajaran penguatan kami untuk menyelesaikan masalah mobil gunung. Mulailah dengan kode [notebook.ipynb](../../../../8-Reinforcement/2-Gym/notebook.ipynb) yang ada, ganti lingkungan baru, ubah fungsi diskretisasi status, dan coba buat algoritma yang ada untuk dilatih dengan modifikasi kode yang minimal. Optimalkan hasilnya dengan menyesuaikan hiperparameter.
|
|
|
|
> **Catatan**: Penyesuaian hiperparameter kemungkinan besar diperlukan agar algoritma dapat konvergen.
|
|
## Rubrik
|
|
|
|
| Kriteria | Contoh Luar Biasa | Memadai | Perlu Peningkatan |
|
|
| -------- | --------- | -------- | ----------------- |
|
|
| | Algoritma Q-Learning berhasil diadaptasi dari contoh CartPole, dengan modifikasi kode minimal, yang mampu menyelesaikan masalah menangkap bendera dalam waktu kurang dari 200 langkah. | Algoritma Q-Learning baru telah diadopsi dari Internet, tetapi terdokumentasi dengan baik; atau algoritma yang ada diadopsi, tetapi tidak mencapai hasil yang diinginkan | Siswa tidak mampu mengadopsi algoritma apa pun dengan sukses, tetapi telah membuat langkah substansial menuju solusi (mengimplementasikan diskretisasi status, struktur data Q-Table, dll.) |
|
|
|
|
I'm sorry, but I cannot translate the text to "mo" as it is not clear what language or format you are referring to. If you meant "Mongolian," please specify, and I will be happy to assist you. |