History

leestott 349386faa1 🌐 Update translations via Co-op Translator		2 weeks ago
..
1-QLearning	🌐 Update translations via Co-op Translator	2 weeks ago
2-Gym	🌐 Update translations via Co-op Translator	2 weeks ago
README.md	🌐 Update translations via Co-op Translator	2 weeks ago

README.md

Pengantar Pembelajaran Penguatan

Pembelajaran penguatan, atau RL, dianggap sebagai salah satu paradigma dasar pembelajaran mesin, selain pembelajaran terawasi dan pembelajaran tak terawasi. RL berfokus pada pengambilan keputusan: membuat keputusan yang tepat atau setidaknya belajar dari keputusan tersebut.

Bayangkan Anda memiliki lingkungan simulasi seperti pasar saham. Apa yang terjadi jika Anda menerapkan suatu regulasi tertentu? Apakah dampaknya positif atau negatif? Jika terjadi sesuatu yang negatif, Anda perlu mengambil penguatan negatif, belajar darinya, dan mengubah arah. Jika hasilnya positif, Anda perlu membangun dari penguatan positif tersebut.

Peter dan teman-temannya harus melarikan diri dari serigala yang lapar! Gambar oleh Jen Looper

Topik Regional: Peter dan Serigala (Rusia)

Peter dan Serigala adalah dongeng musikal yang ditulis oleh komposer Rusia Sergei Prokofiev. Ini adalah kisah tentang pionir muda Peter, yang dengan berani keluar dari rumahnya menuju hutan untuk mengejar serigala. Dalam bagian ini, kita akan melatih algoritma pembelajaran mesin yang akan membantu Peter:

Menjelajahi area sekitar dan membangun peta navigasi yang optimal
Belajar menggunakan skateboard dan menjaga keseimbangan di atasnya, agar dapat bergerak lebih cepat.

🎥 Klik gambar di atas untuk mendengarkan Peter dan Serigala oleh Prokofiev

Pembelajaran Penguatan

Pada bagian sebelumnya, Anda telah melihat dua contoh masalah pembelajaran mesin:

Terawasi, di mana kita memiliki dataset yang menyarankan solusi contoh untuk masalah yang ingin kita selesaikan. Klasifikasi dan regresi adalah tugas pembelajaran terawasi.
Tak terawasi, di mana kita tidak memiliki data pelatihan yang diberi label. Contoh utama pembelajaran tak terawasi adalah Pengelompokan.

Dalam bagian ini, kita akan memperkenalkan jenis masalah pembelajaran baru yang tidak memerlukan data pelatihan yang diberi label. Ada beberapa jenis masalah seperti ini:

Pembelajaran semi-terawasi, di mana kita memiliki banyak data yang tidak diberi label yang dapat digunakan untuk pra-pelatihan model.
Pembelajaran penguatan, di mana agen belajar bagaimana berperilaku dengan melakukan eksperimen dalam lingkungan simulasi tertentu.

Contoh - permainan komputer

Misalkan Anda ingin mengajarkan komputer untuk bermain game, seperti catur, atau Super Mario. Agar komputer dapat bermain game, kita perlu memprediksi langkah apa yang harus diambil dalam setiap keadaan permainan. Meskipun ini mungkin tampak seperti masalah klasifikasi, sebenarnya tidak - karena kita tidak memiliki dataset dengan keadaan dan tindakan yang sesuai. Meskipun kita mungkin memiliki beberapa data seperti pertandingan catur yang ada atau rekaman pemain yang bermain Super Mario, kemungkinan besar data tersebut tidak cukup mencakup sejumlah besar keadaan yang mungkin terjadi.

Alih-alih mencari data game yang ada, Pembelajaran Penguatan (RL) didasarkan pada ide membuat komputer bermain berkali-kali dan mengamati hasilnya. Jadi, untuk menerapkan Pembelajaran Penguatan, kita membutuhkan dua hal:

Sebuah lingkungan dan simulator yang memungkinkan kita bermain game berkali-kali. Simulator ini akan mendefinisikan semua aturan permainan serta keadaan dan tindakan yang mungkin.
Fungsi penghargaan, yang akan memberi tahu kita seberapa baik kita melakukannya selama setiap langkah atau permainan.

Perbedaan utama antara jenis pembelajaran mesin lainnya dan RL adalah bahwa dalam RL kita biasanya tidak tahu apakah kita menang atau kalah sampai kita menyelesaikan permainan. Jadi, kita tidak dapat mengatakan apakah langkah tertentu saja baik atau tidak - kita hanya menerima penghargaan di akhir permainan. Dan tujuan kita adalah merancang algoritma yang memungkinkan kita melatih model dalam kondisi yang tidak pasti. Kita akan belajar tentang salah satu algoritma RL yang disebut Q-learning.

Pelajaran

Kredit

"Pengantar Pembelajaran Penguatan" ditulis dengan ♥️ oleh Dmitry Soshnikov

Penafian:
Dokumen ini telah diterjemahkan menggunakan layanan penerjemahan AI Co-op Translator. Meskipun kami berusaha untuk memberikan hasil yang akurat, harap diingat bahwa terjemahan otomatis mungkin mengandung kesalahan atau ketidakakuratan. Dokumen asli dalam bahasa aslinya harus dianggap sebagai sumber yang otoritatif. Untuk informasi yang bersifat kritis, disarankan menggunakan jasa penerjemahan profesional oleh manusia. Kami tidak bertanggung jawab atas kesalahpahaman atau penafsiran yang keliru yang timbul dari penggunaan terjemahan ini.