# การแนะนำการเรียนรู้แบบเสริมกำลัง การเรียนรู้แบบเสริมกำลัง (Reinforcement Learning หรือ RL) ถือเป็นหนึ่งในรูปแบบพื้นฐานของการเรียนรู้ของเครื่อง (Machine Learning) ควบคู่ไปกับการเรียนรู้แบบมีผู้สอน (Supervised Learning) และการเรียนรู้แบบไม่มีผู้สอน (Unsupervised Learning) RL เกี่ยวข้องกับการตัดสินใจ: การตัดสินใจที่ถูกต้อง หรืออย่างน้อยก็เรียนรู้จากการตัดสินใจนั้น ลองจินตนาการว่าคุณมีสภาพแวดล้อมจำลอง เช่น ตลาดหุ้น หากคุณกำหนดกฎระเบียบบางอย่าง ผลลัพธ์จะเป็นบวกหรือเป็นลบ? หากเกิดผลลบ คุณต้องรับรู้ถึง _การเสริมกำลังเชิงลบ_ เรียนรู้จากมัน และปรับเปลี่ยนแนวทาง หากผลลัพธ์เป็นบวก คุณต้องสร้างต่อยอดจาก _การเสริมกำลังเชิงบวก_ นั้น ![peter and the wolf](../../../8-Reinforcement/images/peter.png) > ปีเตอร์และเพื่อนๆ ต้องหนีจากหมาป่าที่หิวโหย! ภาพโดย [Jen Looper](https://twitter.com/jenlooper) ## หัวข้อภูมิภาค: ปีเตอร์กับหมาป่า (รัสเซีย) [ปีเตอร์กับหมาป่า](https://en.wikipedia.org/wiki/Peter_and_the_Wolf) เป็นนิทานดนตรีที่เขียนโดยนักประพันธ์ชาวรัสเซีย [Sergei Prokofiev](https://en.wikipedia.org/wiki/Sergei_Prokofiev) เป็นเรื่องราวของปีเตอร์ เด็กชายผู้กล้าหาญที่ออกจากบ้านไปยังป่าลึกเพื่อไล่ล่าหมาป่า ในส่วนนี้ เราจะฝึกอัลกอริทึมการเรียนรู้ของเครื่องเพื่อช่วยปีเตอร์: - **สำรวจ** พื้นที่โดยรอบและสร้างแผนที่การนำทางที่เหมาะสมที่สุด - **เรียนรู้** วิธีใช้สเก็ตบอร์ดและทรงตัวบนมัน เพื่อให้เคลื่อนที่ได้เร็วขึ้น [![ปีเตอร์กับหมาป่า](https://img.youtube.com/vi/Fmi5zHg4QSM/0.jpg)](https://www.youtube.com/watch?v=Fmi5zHg4QSM) > 🎥 คลิกที่ภาพด้านบนเพื่อฟังเพลงปีเตอร์กับหมาป่าโดย Prokofiev ## การเรียนรู้แบบเสริมกำลัง ในส่วนก่อนหน้านี้ คุณได้เห็นตัวอย่างของปัญหาการเรียนรู้ของเครื่องสองประเภท: - **แบบมีผู้สอน** ซึ่งเรามีชุดข้อมูลที่แนะนำวิธีแก้ปัญหาตัวอย่างที่เราต้องการแก้ไข [การจำแนกประเภท](../4-Classification/README.md) และ [การถดถอย](../2-Regression/README.md) เป็นงานการเรียนรู้แบบมีผู้สอน - **แบบไม่มีผู้สอน** ซึ่งเราไม่มีข้อมูลการฝึกที่มีการติดป้ายกำกับ ตัวอย่างหลักของการเรียนรู้แบบไม่มีผู้สอนคือ [การจัดกลุ่ม](../5-Clustering/README.md) ในส่วนนี้ เราจะนำเสนอปัญหาการเรียนรู้รูปแบบใหม่ที่ไม่ต้องการข้อมูลการฝึกที่มีการติดป้ายกำกับ มีหลายประเภทของปัญหาเหล่านี้: - **[การเรียนรู้แบบกึ่งมีผู้สอน](https://wikipedia.org/wiki/Semi-supervised_learning)** ซึ่งเรามีข้อมูลที่ไม่มีการติดป้ายกำกับจำนวนมากที่สามารถใช้ในการฝึกโมเดลเบื้องต้น - **[การเรียนรู้แบบเสริมกำลัง](https://wikipedia.org/wiki/Reinforcement_learning)** ซึ่งตัวแทน (Agent) เรียนรู้วิธีการทำงานโดยการทดลองในสภาพแวดล้อมจำลอง ### ตัวอย่าง - เกมคอมพิวเตอร์ สมมติว่าคุณต้องการสอนคอมพิวเตอร์ให้เล่นเกม เช่น หมากรุก หรือ [Super Mario](https://wikipedia.org/wiki/Super_Mario) เพื่อให้คอมพิวเตอร์เล่นเกม เราต้องให้มันคาดการณ์ว่าจะเคลื่อนไหวอย่างไรในแต่ละสถานะของเกม แม้ว่าสิ่งนี้อาจดูเหมือนเป็นปัญหาการจำแนกประเภท แต่จริงๆ แล้วไม่ใช่ เพราะเราไม่มีชุดข้อมูลที่มีสถานะและการกระทำที่สอดคล้องกัน แม้ว่าเราอาจมีข้อมูลบางอย่าง เช่น เกมหมากรุกที่มีอยู่ หรือการบันทึกผู้เล่นที่เล่น Super Mario แต่ข้อมูลนั้นอาจไม่ครอบคลุมสถานะที่เป็นไปได้จำนวนมากพอ แทนที่จะค้นหาข้อมูลเกมที่มีอยู่ **การเรียนรู้แบบเสริมกำลัง** (RL) อิงตามแนวคิดของ *การทำให้คอมพิวเตอร์เล่น* หลายครั้งและสังเกตผลลัพธ์ ดังนั้น เพื่อใช้การเรียนรู้แบบเสริมกำลัง เราต้องมีสองสิ่ง: - **สภาพแวดล้อม** และ **ตัวจำลอง** ที่ช่วยให้เราเล่นเกมได้หลายครั้ง ตัวจำลองนี้จะกำหนดกฎของเกมทั้งหมด รวมถึงสถานะและการกระทำที่เป็นไปได้ - **ฟังก์ชันรางวัล** ซึ่งจะบอกเราว่าเราทำได้ดีแค่ไหนในแต่ละการเคลื่อนไหวหรือเกม ความแตกต่างหลักระหว่างการเรียนรู้ของเครื่องประเภทอื่นๆ และ RL คือใน RL เรามักไม่รู้ว่าเราชนะหรือแพ้จนกว่าเกมจะจบ ดังนั้น เราไม่สามารถบอกได้ว่าการเคลื่อนไหวบางอย่างเพียงอย่างเดียวดีหรือไม่ - เราจะได้รับรางวัลเมื่อจบเกมเท่านั้น และเป้าหมายของเราคือการออกแบบอัลกอริทึมที่ช่วยให้เราฝึกโมเดลภายใต้เงื่อนไขที่ไม่แน่นอน เราจะเรียนรู้เกี่ยวกับอัลกอริทึม RL ที่เรียกว่า **Q-learning** ## บทเรียน 1. [การแนะนำการเรียนรู้แบบเสริมกำลังและ Q-Learning](1-QLearning/README.md) 2. [การใช้สภาพแวดล้อมจำลองใน Gym](2-Gym/README.md) ## เครดิต "การแนะนำการเรียนรู้แบบเสริมกำลัง" เขียนด้วย ♥️ โดย [Dmitry Soshnikov](http://soshnikov.com) --- **ข้อจำกัดความรับผิดชอบ**: เอกสารนี้ได้รับการแปลโดยใช้บริการแปลภาษา AI [Co-op Translator](https://github.com/Azure/co-op-translator) แม้ว่าเราจะพยายามให้การแปลมีความถูกต้อง แต่โปรดทราบว่าการแปลโดยอัตโนมัติอาจมีข้อผิดพลาดหรือความไม่ถูกต้อง เอกสารต้นฉบับในภาษาดั้งเดิมควรถือเป็นแหล่งข้อมูลที่เชื่อถือได้ สำหรับข้อมูลที่สำคัญ ขอแนะนำให้ใช้บริการแปลภาษามืออาชีพ เราไม่รับผิดชอบต่อความเข้าใจผิดหรือการตีความผิดที่เกิดจากการใช้การแปลนี้