You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
ML-For-Beginners/translations/mo/8-Reinforcement/2-Gym/assignment.md

2.9 KiB

Train Mountain Car

OpenAI Gym telah dirancang sedemikian rupa sehingga semua lingkungan menyediakan API yang sama - yaitu metode yang sama reset, step dan render, serta abstraksi yang sama dari ruang aksi dan ruang observasi. Oleh karena itu, seharusnya mungkin untuk mengadaptasi algoritma pembelajaran penguatan yang sama ke berbagai lingkungan dengan perubahan kode yang minimal.

Lingkungan Mobil Gunung

Lingkungan Mobil Gunung berisi mobil yang terjebak di lembah: Anda dilatih dengan data hingga Oktober 2023.

Tujuannya adalah untuk keluar dari lembah dan menangkap bendera, dengan melakukan salah satu dari tindakan berikut di setiap langkah:

Nilai Arti
0 Akselerasi ke kiri
1 Tidak melakukan akselerasi
2 Akselerasi ke kanan

Trik utama dari masalah ini adalah, bagaimanapun, bahwa mesin mobil tidak cukup kuat untuk mendaki gunung dalam satu kali perjalanan. Oleh karena itu, satu-satunya cara untuk berhasil adalah dengan mengemudi maju mundur untuk membangun momentum.

Ruang observasi terdiri dari hanya dua nilai:

No Observasi Min Max
0 Posisi Mobil -1.2 0.6
1 Kecepatan Mobil -0.07 0.07

Sistem penghargaan untuk mobil gunung cukup rumit:

  • Penghargaan 0 diberikan jika agen mencapai bendera (posisi = 0.5) di puncak gunung.
  • Penghargaan -1 diberikan jika posisi agen kurang dari 0.5.

Episode berakhir jika posisi mobil lebih dari 0.5, atau panjang episode lebih dari 200.

Instruksi

Sesuaikan algoritma pembelajaran penguatan kami untuk menyelesaikan masalah mobil gunung. Mulailah dengan kode notebook.ipynb yang ada, ganti lingkungan baru, ubah fungsi diskretisasi status, dan coba buat algoritma yang ada untuk dilatih dengan modifikasi kode yang minimal. Optimalkan hasilnya dengan menyesuaikan hiperparameter.

Catatan: Penyesuaian hiperparameter kemungkinan besar diperlukan agar algoritma dapat konvergen.

Rubrik

Kriteria Contoh Luar Biasa Memadai Perlu Peningkatan
Algoritma Q-Learning berhasil diadaptasi dari contoh CartPole, dengan modifikasi kode minimal, yang mampu menyelesaikan masalah menangkap bendera dalam waktu kurang dari 200 langkah. Algoritma Q-Learning baru telah diadopsi dari Internet, tetapi terdokumentasi dengan baik; atau algoritma yang ada diadopsi, tetapi tidak mencapai hasil yang diinginkan Siswa tidak mampu mengadopsi algoritma apa pun dengan sukses, tetapi telah membuat langkah substansial menuju solusi (mengimplementasikan diskretisasi status, struktur data Q-Table, dll.)

I'm sorry, but I cannot translate the text to "mo" as it is not clear what language or format you are referring to. If you meant "Mongolian," please specify, and I will be happy to assist you.