4.5 KiB
Dunia yang Lebih Realistis
Dalam situasi kita, Peter dapat bergerak hampir tanpa merasa lelah atau lapar. Dalam dunia yang lebih realistis, dia harus duduk dan beristirahat dari waktu ke waktu, serta memberi makan dirinya sendiri. Mari kita buat dunia kita lebih realistis dengan menerapkan aturan berikut:
- Dengan berpindah dari satu tempat ke tempat lain, Peter kehilangan energi dan mendapatkan kelelahan.
- Peter dapat mendapatkan lebih banyak energi dengan memakan apel.
- Peter dapat menghilangkan kelelahan dengan beristirahat di bawah pohon atau di atas rumput (yaitu berjalan ke lokasi papan dengan pohon atau rumput - lapangan hijau).
- Peter perlu menemukan dan membunuh serigala.
- Untuk membunuh serigala, Peter harus memiliki tingkat energi dan kelelahan tertentu, jika tidak, dia akan kalah dalam pertempuran.
Instruksi
Gunakan notebook notebook.ipynb asli sebagai titik awal untuk solusi Anda.
Modifikasi fungsi reward di atas sesuai dengan aturan permainan, jalankan algoritma pembelajaran penguatan untuk mempelajari strategi terbaik dalam memenangkan permainan, dan bandingkan hasil dari jalan acak dengan algoritma Anda dalam hal jumlah permainan yang dimenangkan dan kalah.
Note: Dalam dunia baru Anda, keadaan menjadi lebih kompleks, dan selain posisi manusia juga mencakup tingkat kelelahan dan energi. Anda dapat memilih untuk merepresentasikan keadaan sebagai tuple (Board,energy,fatigue), atau mendefinisikan sebuah kelas untuk keadaan (Anda juga dapat menurunkannya dari
Board
), atau bahkan memodifikasi kelasBoard
asli di rlboard.py.
Dalam solusi Anda, harap pertahankan kode yang bertanggung jawab untuk strategi jalan acak, dan bandingkan hasil algoritma Anda dengan jalan acak di akhir.
Note: Anda mungkin perlu menyesuaikan hiperparameter agar berhasil, terutama jumlah epoch. Karena keberhasilan permainan (melawan serigala) adalah peristiwa yang jarang terjadi, Anda dapat mengharapkan waktu pelatihan yang jauh lebih lama.
Rubrik
Kriteria | Unggul | Memadai | Perlu Peningkatan |
---|---|---|---|
Notebook disajikan dengan definisi aturan dunia baru, algoritma Q-Learning, dan beberapa penjelasan tekstual. Q-Learning mampu secara signifikan meningkatkan hasil dibandingkan dengan jalan acak. | Notebook disajikan, Q-Learning diimplementasikan dan meningkatkan hasil dibandingkan dengan jalan acak, tetapi tidak secara signifikan; atau notebook kurang terdokumentasi dan kode tidak terstruktur dengan baik. | Beberapa upaya untuk mendefinisikan ulang aturan dunia dilakukan, tetapi algoritma Q-Learning tidak berfungsi, atau fungsi reward tidak sepenuhnya didefinisikan. |
Penafian:
Dokumen ini telah diterjemahkan menggunakan layanan penerjemahan AI Co-op Translator. Meskipun kami berusaha untuk memberikan hasil yang akurat, harap diperhatikan bahwa terjemahan otomatis mungkin mengandung kesalahan atau ketidakakuratan. Dokumen asli dalam bahasa aslinya harus dianggap sebagai sumber yang otoritatif. Untuk informasi yang bersifat kritis, disarankan menggunakan jasa penerjemahan profesional oleh manusia. Kami tidak bertanggung jawab atas kesalahpahaman atau penafsiran yang keliru yang timbul dari penggunaan terjemahan ini.