11 KiB
การแนะนำการเรียนรู้แบบเสริมกำลัง
การเรียนรู้แบบเสริมกำลัง (Reinforcement Learning หรือ RL) ถือเป็นหนึ่งในรูปแบบพื้นฐานของการเรียนรู้ของเครื่อง (Machine Learning) ควบคู่ไปกับการเรียนรู้แบบมีผู้สอน (Supervised Learning) และการเรียนรู้แบบไม่มีผู้สอน (Unsupervised Learning) RL เกี่ยวข้องกับการตัดสินใจ: การตัดสินใจที่ถูกต้อง หรืออย่างน้อยก็เรียนรู้จากการตัดสินใจนั้น
ลองจินตนาการว่าคุณมีสภาพแวดล้อมจำลอง เช่น ตลาดหุ้น หากคุณกำหนดกฎระเบียบบางอย่าง ผลลัพธ์จะเป็นบวกหรือเป็นลบ? หากเกิดผลลบ คุณต้องรับรู้ถึง การเสริมกำลังเชิงลบ เรียนรู้จากมัน และปรับเปลี่ยนแนวทาง หากผลลัพธ์เป็นบวก คุณต้องสร้างต่อยอดจาก การเสริมกำลังเชิงบวก นั้น
ปีเตอร์และเพื่อนๆ ต้องหนีจากหมาป่าที่หิวโหย! ภาพโดย Jen Looper
หัวข้อภูมิภาค: ปีเตอร์กับหมาป่า (รัสเซีย)
ปีเตอร์กับหมาป่า เป็นนิทานดนตรีที่เขียนโดยนักประพันธ์ชาวรัสเซีย Sergei Prokofiev เป็นเรื่องราวของปีเตอร์ เด็กชายผู้กล้าหาญที่ออกจากบ้านไปยังป่าลึกเพื่อไล่ล่าหมาป่า ในส่วนนี้ เราจะฝึกอัลกอริทึมการเรียนรู้ของเครื่องเพื่อช่วยปีเตอร์:
- สำรวจ พื้นที่โดยรอบและสร้างแผนที่การนำทางที่เหมาะสมที่สุด
- เรียนรู้ วิธีใช้สเก็ตบอร์ดและทรงตัวบนมัน เพื่อให้เคลื่อนที่ได้เร็วขึ้น
🎥 คลิกที่ภาพด้านบนเพื่อฟังเพลงปีเตอร์กับหมาป่าโดย Prokofiev
การเรียนรู้แบบเสริมกำลัง
ในส่วนก่อนหน้านี้ คุณได้เห็นตัวอย่างของปัญหาการเรียนรู้ของเครื่องสองประเภท:
- แบบมีผู้สอน ซึ่งเรามีชุดข้อมูลที่แนะนำวิธีแก้ปัญหาตัวอย่างที่เราต้องการแก้ไข การจำแนกประเภท และ การถดถอย เป็นงานการเรียนรู้แบบมีผู้สอน
- แบบไม่มีผู้สอน ซึ่งเราไม่มีข้อมูลการฝึกที่มีการติดป้ายกำกับ ตัวอย่างหลักของการเรียนรู้แบบไม่มีผู้สอนคือ การจัดกลุ่ม
ในส่วนนี้ เราจะนำเสนอปัญหาการเรียนรู้รูปแบบใหม่ที่ไม่ต้องการข้อมูลการฝึกที่มีการติดป้ายกำกับ มีหลายประเภทของปัญหาเหล่านี้:
- การเรียนรู้แบบกึ่งมีผู้สอน ซึ่งเรามีข้อมูลที่ไม่มีการติดป้ายกำกับจำนวนมากที่สามารถใช้ในการฝึกโมเดลเบื้องต้น
- การเรียนรู้แบบเสริมกำลัง ซึ่งตัวแทน (Agent) เรียนรู้วิธีการทำงานโดยการทดลองในสภาพแวดล้อมจำลอง
ตัวอย่าง - เกมคอมพิวเตอร์
สมมติว่าคุณต้องการสอนคอมพิวเตอร์ให้เล่นเกม เช่น หมากรุก หรือ Super Mario เพื่อให้คอมพิวเตอร์เล่นเกม เราต้องให้มันคาดการณ์ว่าจะเคลื่อนไหวอย่างไรในแต่ละสถานะของเกม แม้ว่าสิ่งนี้อาจดูเหมือนเป็นปัญหาการจำแนกประเภท แต่จริงๆ แล้วไม่ใช่ เพราะเราไม่มีชุดข้อมูลที่มีสถานะและการกระทำที่สอดคล้องกัน แม้ว่าเราอาจมีข้อมูลบางอย่าง เช่น เกมหมากรุกที่มีอยู่ หรือการบันทึกผู้เล่นที่เล่น Super Mario แต่ข้อมูลนั้นอาจไม่ครอบคลุมสถานะที่เป็นไปได้จำนวนมากพอ
แทนที่จะค้นหาข้อมูลเกมที่มีอยู่ การเรียนรู้แบบเสริมกำลัง (RL) อิงตามแนวคิดของ การทำให้คอมพิวเตอร์เล่น หลายครั้งและสังเกตผลลัพธ์ ดังนั้น เพื่อใช้การเรียนรู้แบบเสริมกำลัง เราต้องมีสองสิ่ง:
-
สภาพแวดล้อม และ ตัวจำลอง ที่ช่วยให้เราเล่นเกมได้หลายครั้ง ตัวจำลองนี้จะกำหนดกฎของเกมทั้งหมด รวมถึงสถานะและการกระทำที่เป็นไปได้
-
ฟังก์ชันรางวัล ซึ่งจะบอกเราว่าเราทำได้ดีแค่ไหนในแต่ละการเคลื่อนไหวหรือเกม
ความแตกต่างหลักระหว่างการเรียนรู้ของเครื่องประเภทอื่นๆ และ RL คือใน RL เรามักไม่รู้ว่าเราชนะหรือแพ้จนกว่าเกมจะจบ ดังนั้น เราไม่สามารถบอกได้ว่าการเคลื่อนไหวบางอย่างเพียงอย่างเดียวดีหรือไม่ - เราจะได้รับรางวัลเมื่อจบเกมเท่านั้น และเป้าหมายของเราคือการออกแบบอัลกอริทึมที่ช่วยให้เราฝึกโมเดลภายใต้เงื่อนไขที่ไม่แน่นอน เราจะเรียนรู้เกี่ยวกับอัลกอริทึม RL ที่เรียกว่า Q-learning
บทเรียน
เครดิต
"การแนะนำการเรียนรู้แบบเสริมกำลัง" เขียนด้วย ♥️ โดย Dmitry Soshnikov
ข้อจำกัดความรับผิดชอบ:
เอกสารนี้ได้รับการแปลโดยใช้บริการแปลภาษา AI Co-op Translator แม้ว่าเราจะพยายามให้การแปลมีความถูกต้อง แต่โปรดทราบว่าการแปลโดยอัตโนมัติอาจมีข้อผิดพลาดหรือความไม่ถูกต้อง เอกสารต้นฉบับในภาษาดั้งเดิมควรถือเป็นแหล่งข้อมูลที่เชื่อถือได้ สำหรับข้อมูลที่สำคัญ ขอแนะนำให้ใช้บริการแปลภาษามืออาชีพ เราไม่รับผิดชอบต่อความเข้าใจผิดหรือการตีความผิดที่เกิดจากการใช้การแปลนี้