You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
ML-For-Beginners/translations/ms/8-Reinforcement/README.md

5.5 KiB

Pengenalan kepada pembelajaran pengukuhan

Pembelajaran pengukuhan, RL, dianggap sebagai salah satu paradigma pembelajaran mesin asas, selain pembelajaran terselia dan pembelajaran tidak terselia. RL berkaitan dengan membuat keputusan: memberikan keputusan yang tepat atau sekurang-kurangnya belajar daripadanya.

Bayangkan anda mempunyai persekitaran simulasi seperti pasaran saham. Apa yang berlaku jika anda mengenakan peraturan tertentu? Adakah ia memberi kesan positif atau negatif? Jika sesuatu yang negatif berlaku, anda perlu mengambil pengukuhan negatif ini, belajar daripadanya, dan mengubah haluan. Jika hasilnya positif, anda perlu membina atas pengukuhan positif tersebut.

peter dan serigala

Peter dan rakan-rakannya perlu melarikan diri daripada serigala yang lapar! Imej oleh Jen Looper

Topik serantau: Peter dan Serigala (Rusia)

Peter dan Serigala ialah kisah dongeng muzik yang ditulis oleh komposer Rusia Sergei Prokofiev. Ia adalah cerita tentang perintis muda Peter, yang dengan berani keluar dari rumahnya ke kawasan hutan untuk mengejar serigala. Dalam bahagian ini, kita akan melatih algoritma pembelajaran mesin yang akan membantu Peter:

  • Meneroka kawasan sekitar dan membina peta navigasi yang optimum
  • Belajar cara menggunakan papan luncur dan mengimbangi di atasnya, untuk bergerak dengan lebih pantas.

Peter dan Serigala

🎥 Klik imej di atas untuk mendengar Peter dan Serigala oleh Prokofiev

Pembelajaran pengukuhan

Dalam bahagian sebelumnya, anda telah melihat dua contoh masalah pembelajaran mesin:

  • Terselia, di mana kita mempunyai set data yang mencadangkan penyelesaian sampel kepada masalah yang ingin kita selesaikan. Klasifikasi dan regresi adalah tugas pembelajaran terselia.
  • Tidak terselia, di mana kita tidak mempunyai data latihan berlabel. Contoh utama pembelajaran tidak terselia ialah Pengelompokan.

Dalam bahagian ini, kami akan memperkenalkan anda kepada jenis masalah pembelajaran baharu yang tidak memerlukan data latihan berlabel. Terdapat beberapa jenis masalah seperti ini:

  • Pembelajaran separa terselia, di mana kita mempunyai banyak data tidak berlabel yang boleh digunakan untuk pra-latihan model.
  • Pembelajaran pengukuhan, di mana agen belajar bagaimana untuk bertindak dengan melakukan eksperimen dalam persekitaran simulasi tertentu.

Contoh - permainan komputer

Bayangkan anda ingin mengajar komputer bermain permainan, seperti catur, atau Super Mario. Untuk komputer bermain permainan, kita perlu ia meramalkan langkah mana yang perlu diambil dalam setiap keadaan permainan. Walaupun ini mungkin kelihatan seperti masalah klasifikasi, ia bukan - kerana kita tidak mempunyai set data dengan keadaan dan tindakan yang sepadan. Walaupun kita mungkin mempunyai beberapa data seperti perlawanan catur yang sedia ada atau rakaman pemain bermain Super Mario, kemungkinan besar data tersebut tidak mencukupi untuk merangkumi sejumlah besar keadaan yang mungkin.

Daripada mencari data permainan yang sedia ada, Pembelajaran Pengukuhan (RL) berdasarkan idea membuat komputer bermain berkali-kali dan memerhatikan hasilnya. Oleh itu, untuk menggunakan Pembelajaran Pengukuhan, kita memerlukan dua perkara:

  • Persekitaran dan simulator yang membolehkan kita bermain permainan berkali-kali. Simulator ini akan mentakrifkan semua peraturan permainan serta keadaan dan tindakan yang mungkin.

  • Fungsi ganjaran, yang akan memberitahu kita sejauh mana prestasi kita semasa setiap langkah atau permainan.

Perbezaan utama antara jenis pembelajaran mesin lain dan RL ialah dalam RL kita biasanya tidak tahu sama ada kita menang atau kalah sehingga kita selesai bermain permainan. Oleh itu, kita tidak boleh mengatakan sama ada langkah tertentu sahaja adalah baik atau tidak - kita hanya menerima ganjaran pada akhir permainan. Dan matlamat kita adalah untuk mereka bentuk algoritma yang akan membolehkan kita melatih model di bawah keadaan yang tidak pasti. Kita akan belajar tentang satu algoritma RL yang dipanggil Q-learning.

Pelajaran

  1. Pengenalan kepada pembelajaran pengukuhan dan Q-Learning
  2. Menggunakan persekitaran simulasi gym

Kredit

"Pengenalan kepada Pembelajaran Pengukuhan" ditulis dengan ♥️ oleh Dmitry Soshnikov


Penafian:
Dokumen ini telah diterjemahkan menggunakan perkhidmatan terjemahan AI Co-op Translator. Walaupun kami berusaha untuk memastikan ketepatan, sila ambil perhatian bahawa terjemahan automatik mungkin mengandungi kesilapan atau ketidaktepatan. Dokumen asal dalam bahasa asalnya harus dianggap sebagai sumber yang berwibawa. Untuk maklumat yang kritikal, terjemahan manusia profesional adalah disyorkan. Kami tidak bertanggungjawab atas sebarang salah faham atau salah tafsir yang timbul daripada penggunaan terjemahan ini.