11 KiB

Raw Permalink Blame History

การแนะนำการเรียนรู้แบบเสริมกำลัง

การเรียนรู้แบบเสริมกำลัง (Reinforcement Learning หรือ RL) ถือเป็นหนึ่งในรูปแบบพื้นฐานของการเรียนรู้ของเครื่อง (Machine Learning) ควบคู่ไปกับการเรียนรู้แบบมีผู้สอน (Supervised Learning) และการเรียนรู้แบบไม่มีผู้สอน (Unsupervised Learning) RL เกี่ยวข้องกับการตัดสินใจ: การตัดสินใจที่ถูกต้อง หรืออย่างน้อยก็เรียนรู้จากการตัดสินใจนั้น

ลองจินตนาการว่าคุณมีสภาพแวดล้อมจำลอง เช่น ตลาดหุ้น หากคุณกำหนดกฎระเบียบบางอย่าง ผลลัพธ์จะเป็นบวกหรือเป็นลบ? หากเกิดผลลบ คุณต้องรับรู้ถึง การเสริมกำลังเชิงลบ เรียนรู้จากมัน และปรับเปลี่ยนแนวทาง หากผลลัพธ์เป็นบวก คุณต้องสร้างต่อยอดจาก การเสริมกำลังเชิงบวก นั้น

ปีเตอร์และเพื่อนๆ ต้องหนีจากหมาป่าที่หิวโหย! ภาพโดย Jen Looper

หัวข้อภูมิภาค: ปีเตอร์กับหมาป่า (รัสเซีย)

ปีเตอร์กับหมาป่า เป็นนิทานดนตรีที่เขียนโดยนักประพันธ์ชาวรัสเซีย Sergei Prokofiev เป็นเรื่องราวของปีเตอร์ เด็กชายผู้กล้าหาญที่ออกจากบ้านไปยังป่าลึกเพื่อไล่ล่าหมาป่า ในส่วนนี้ เราจะฝึกอัลกอริทึมการเรียนรู้ของเครื่องเพื่อช่วยปีเตอร์:

สำรวจ พื้นที่โดยรอบและสร้างแผนที่การนำทางที่เหมาะสมที่สุด
เรียนรู้ วิธีใช้สเก็ตบอร์ดและทรงตัวบนมัน เพื่อให้เคลื่อนที่ได้เร็วขึ้น

🎥 คลิกที่ภาพด้านบนเพื่อฟังเพลงปีเตอร์กับหมาป่าโดย Prokofiev

การเรียนรู้แบบเสริมกำลัง

ในส่วนก่อนหน้านี้ คุณได้เห็นตัวอย่างของปัญหาการเรียนรู้ของเครื่องสองประเภท:

แบบมีผู้สอน ซึ่งเรามีชุดข้อมูลที่แนะนำวิธีแก้ปัญหาตัวอย่างที่เราต้องการแก้ไข การจำแนกประเภท และ การถดถอย เป็นงานการเรียนรู้แบบมีผู้สอน
แบบไม่มีผู้สอน ซึ่งเราไม่มีข้อมูลการฝึกที่มีการติดป้ายกำกับ ตัวอย่างหลักของการเรียนรู้แบบไม่มีผู้สอนคือ การจัดกลุ่ม

ในส่วนนี้ เราจะนำเสนอปัญหาการเรียนรู้รูปแบบใหม่ที่ไม่ต้องการข้อมูลการฝึกที่มีการติดป้ายกำกับ มีหลายประเภทของปัญหาเหล่านี้:

การเรียนรู้แบบกึ่งมีผู้สอน ซึ่งเรามีข้อมูลที่ไม่มีการติดป้ายกำกับจำนวนมากที่สามารถใช้ในการฝึกโมเดลเบื้องต้น
การเรียนรู้แบบเสริมกำลัง ซึ่งตัวแทน (Agent) เรียนรู้วิธีการทำงานโดยการทดลองในสภาพแวดล้อมจำลอง

ตัวอย่าง - เกมคอมพิวเตอร์

สมมติว่าคุณต้องการสอนคอมพิวเตอร์ให้เล่นเกม เช่น หมากรุก หรือ Super Mario เพื่อให้คอมพิวเตอร์เล่นเกม เราต้องให้มันคาดการณ์ว่าจะเคลื่อนไหวอย่างไรในแต่ละสถานะของเกม แม้ว่าสิ่งนี้อาจดูเหมือนเป็นปัญหาการจำแนกประเภท แต่จริงๆ แล้วไม่ใช่ เพราะเราไม่มีชุดข้อมูลที่มีสถานะและการกระทำที่สอดคล้องกัน แม้ว่าเราอาจมีข้อมูลบางอย่าง เช่น เกมหมากรุกที่มีอยู่ หรือการบันทึกผู้เล่นที่เล่น Super Mario แต่ข้อมูลนั้นอาจไม่ครอบคลุมสถานะที่เป็นไปได้จำนวนมากพอ

แทนที่จะค้นหาข้อมูลเกมที่มีอยู่ การเรียนรู้แบบเสริมกำลัง (RL) อิงตามแนวคิดของ การทำให้คอมพิวเตอร์เล่น หลายครั้งและสังเกตผลลัพธ์ ดังนั้น เพื่อใช้การเรียนรู้แบบเสริมกำลัง เราต้องมีสองสิ่ง:

สภาพแวดล้อม และ ตัวจำลอง ที่ช่วยให้เราเล่นเกมได้หลายครั้ง ตัวจำลองนี้จะกำหนดกฎของเกมทั้งหมด รวมถึงสถานะและการกระทำที่เป็นไปได้
ฟังก์ชันรางวัล ซึ่งจะบอกเราว่าเราทำได้ดีแค่ไหนในแต่ละการเคลื่อนไหวหรือเกม

ความแตกต่างหลักระหว่างการเรียนรู้ของเครื่องประเภทอื่นๆ และ RL คือใน RL เรามักไม่รู้ว่าเราชนะหรือแพ้จนกว่าเกมจะจบ ดังนั้น เราไม่สามารถบอกได้ว่าการเคลื่อนไหวบางอย่างเพียงอย่างเดียวดีหรือไม่ - เราจะได้รับรางวัลเมื่อจบเกมเท่านั้น และเป้าหมายของเราคือการออกแบบอัลกอริทึมที่ช่วยให้เราฝึกโมเดลภายใต้เงื่อนไขที่ไม่แน่นอน เราจะเรียนรู้เกี่ยวกับอัลกอริทึม RL ที่เรียกว่า Q-learning

บทเรียน

เครดิต

"การแนะนำการเรียนรู้แบบเสริมกำลัง" เขียนด้วย ♥️ โดย Dmitry Soshnikov

ข้อจำกัดความรับผิดชอบ:
เอกสารนี้ได้รับการแปลโดยใช้บริการแปลภาษา AI Co-op Translator แม้ว่าเราจะพยายามให้การแปลมีความถูกต้อง แต่โปรดทราบว่าการแปลโดยอัตโนมัติอาจมีข้อผิดพลาดหรือความไม่ถูกต้อง เอกสารต้นฉบับในภาษาดั้งเดิมควรถือเป็นแหล่งข้อมูลที่เชื่อถือได้ สำหรับข้อมูลที่สำคัญ ขอแนะนำให้ใช้บริการแปลภาษามืออาชีพ เราไม่รับผิดชอบต่อความเข้าใจผิดหรือการตีความผิดที่เกิดจากการใช้การแปลนี้

11 KiB Raw Permalink Blame History