You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
ML-For-Beginners/translations/th/8-Reinforcement/README.md

67 lines
11 KiB

<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "20ca019012b1725de956681d036d8b18",
"translation_date": "2025-09-05T22:01:11+00:00",
"source_file": "8-Reinforcement/README.md",
"language_code": "th"
}
-->
# การแนะนำการเรียนรู้แบบเสริมกำลัง
การเรียนรู้แบบเสริมกำลัง (Reinforcement Learning หรือ RL) ถือเป็นหนึ่งในรูปแบบพื้นฐานของการเรียนรู้ของเครื่อง (Machine Learning) ควบคู่ไปกับการเรียนรู้แบบมีผู้สอน (Supervised Learning) และการเรียนรู้แบบไม่มีผู้สอน (Unsupervised Learning) RL เกี่ยวข้องกับการตัดสินใจ: การตัดสินใจที่ถูกต้อง หรืออย่างน้อยก็เรียนรู้จากการตัดสินใจนั้น
ลองจินตนาการว่าคุณมีสภาพแวดล้อมจำลอง เช่น ตลาดหุ้น หากคุณกำหนดกฎระเบียบบางอย่าง ผลลัพธ์จะเป็นบวกหรือเป็นลบ? หากเกิดผลลบ คุณต้องรับรู้ถึง _การเสริมกำลังเชิงลบ_ เรียนรู้จากมัน และปรับเปลี่ยนแนวทาง หากผลลัพธ์เป็นบวก คุณต้องสร้างต่อยอดจาก _การเสริมกำลังเชิงบวก_ นั้น
![peter and the wolf](../../../8-Reinforcement/images/peter.png)
> ปีเตอร์และเพื่อนๆ ต้องหนีจากหมาป่าที่หิวโหย! ภาพโดย [Jen Looper](https://twitter.com/jenlooper)
## หัวข้อภูมิภาค: ปีเตอร์กับหมาป่า (รัสเซีย)
[ปีเตอร์กับหมาป่า](https://en.wikipedia.org/wiki/Peter_and_the_Wolf) เป็นนิทานดนตรีที่เขียนโดยนักประพันธ์ชาวรัสเซีย [Sergei Prokofiev](https://en.wikipedia.org/wiki/Sergei_Prokofiev) เป็นเรื่องราวของปีเตอร์ เด็กชายผู้กล้าหาญที่ออกจากบ้านไปยังป่าลึกเพื่อไล่ล่าหมาป่า ในส่วนนี้ เราจะฝึกอัลกอริทึมการเรียนรู้ของเครื่องเพื่อช่วยปีเตอร์:
- **สำรวจ** พื้นที่โดยรอบและสร้างแผนที่การนำทางที่เหมาะสมที่สุด
- **เรียนรู้** วิธีใช้สเก็ตบอร์ดและทรงตัวบนมัน เพื่อให้เคลื่อนที่ได้เร็วขึ้น
[![ปีเตอร์กับหมาป่า](https://img.youtube.com/vi/Fmi5zHg4QSM/0.jpg)](https://www.youtube.com/watch?v=Fmi5zHg4QSM)
> 🎥 คลิกที่ภาพด้านบนเพื่อฟังเพลงปีเตอร์กับหมาป่าโดย Prokofiev
## การเรียนรู้แบบเสริมกำลัง
ในส่วนก่อนหน้านี้ คุณได้เห็นตัวอย่างของปัญหาการเรียนรู้ของเครื่องสองประเภท:
- **แบบมีผู้สอน** ซึ่งเรามีชุดข้อมูลที่แนะนำวิธีแก้ปัญหาตัวอย่างที่เราต้องการแก้ไข [การจำแนกประเภท](../4-Classification/README.md) และ [การถดถอย](../2-Regression/README.md) เป็นงานการเรียนรู้แบบมีผู้สอน
- **แบบไม่มีผู้สอน** ซึ่งเราไม่มีข้อมูลการฝึกที่มีการติดป้ายกำกับ ตัวอย่างหลักของการเรียนรู้แบบไม่มีผู้สอนคือ [การจัดกลุ่ม](../5-Clustering/README.md)
ในส่วนนี้ เราจะนำเสนอปัญหาการเรียนรู้รูปแบบใหม่ที่ไม่ต้องการข้อมูลการฝึกที่มีการติดป้ายกำกับ มีหลายประเภทของปัญหาเหล่านี้:
- **[การเรียนรู้แบบกึ่งมีผู้สอน](https://wikipedia.org/wiki/Semi-supervised_learning)** ซึ่งเรามีข้อมูลที่ไม่มีการติดป้ายกำกับจำนวนมากที่สามารถใช้ในการฝึกโมเดลเบื้องต้น
- **[การเรียนรู้แบบเสริมกำลัง](https://wikipedia.org/wiki/Reinforcement_learning)** ซึ่งตัวแทน (Agent) เรียนรู้วิธีการทำงานโดยการทดลองในสภาพแวดล้อมจำลอง
### ตัวอย่าง - เกมคอมพิวเตอร์
สมมติว่าคุณต้องการสอนคอมพิวเตอร์ให้เล่นเกม เช่น หมากรุก หรือ [Super Mario](https://wikipedia.org/wiki/Super_Mario) เพื่อให้คอมพิวเตอร์เล่นเกม เราต้องให้มันคาดการณ์ว่าจะเคลื่อนไหวอย่างไรในแต่ละสถานะของเกม แม้ว่าสิ่งนี้อาจดูเหมือนเป็นปัญหาการจำแนกประเภท แต่จริงๆ แล้วไม่ใช่ เพราะเราไม่มีชุดข้อมูลที่มีสถานะและการกระทำที่สอดคล้องกัน แม้ว่าเราอาจมีข้อมูลบางอย่าง เช่น เกมหมากรุกที่มีอยู่ หรือการบันทึกผู้เล่นที่เล่น Super Mario แต่ข้อมูลนั้นอาจไม่ครอบคลุมสถานะที่เป็นไปได้จำนวนมากพอ
แทนที่จะค้นหาข้อมูลเกมที่มีอยู่ **การเรียนรู้แบบเสริมกำลัง** (RL) อิงตามแนวคิดของ *การทำให้คอมพิวเตอร์เล่น* หลายครั้งและสังเกตผลลัพธ์ ดังนั้น เพื่อใช้การเรียนรู้แบบเสริมกำลัง เราต้องมีสองสิ่ง:
- **สภาพแวดล้อม** และ **ตัวจำลอง** ที่ช่วยให้เราเล่นเกมได้หลายครั้ง ตัวจำลองนี้จะกำหนดกฎของเกมทั้งหมด รวมถึงสถานะและการกระทำที่เป็นไปได้
- **ฟังก์ชันรางวัล** ซึ่งจะบอกเราว่าเราทำได้ดีแค่ไหนในแต่ละการเคลื่อนไหวหรือเกม
ความแตกต่างหลักระหว่างการเรียนรู้ของเครื่องประเภทอื่นๆ และ RL คือใน RL เรามักไม่รู้ว่าเราชนะหรือแพ้จนกว่าเกมจะจบ ดังนั้น เราไม่สามารถบอกได้ว่าการเคลื่อนไหวบางอย่างเพียงอย่างเดียวดีหรือไม่ - เราจะได้รับรางวัลเมื่อจบเกมเท่านั้น และเป้าหมายของเราคือการออกแบบอัลกอริทึมที่ช่วยให้เราฝึกโมเดลภายใต้เงื่อนไขที่ไม่แน่นอน เราจะเรียนรู้เกี่ยวกับอัลกอริทึม RL ที่เรียกว่า **Q-learning**
## บทเรียน
1. [การแนะนำการเรียนรู้แบบเสริมกำลังและ Q-Learning](1-QLearning/README.md)
2. [การใช้สภาพแวดล้อมจำลองใน Gym](2-Gym/README.md)
## เครดิต
"การแนะนำการเรียนรู้แบบเสริมกำลัง" เขียนด้วย ♥️ โดย [Dmitry Soshnikov](http://soshnikov.com)
---
**ข้อจำกัดความรับผิดชอบ**:
เอกสารนี้ได้รับการแปลโดยใช้บริการแปลภาษา AI [Co-op Translator](https://github.com/Azure/co-op-translator) แม้ว่าเราจะพยายามให้การแปลมีความถูกต้อง แต่โปรดทราบว่าการแปลโดยอัตโนมัติอาจมีข้อผิดพลาดหรือความไม่ถูกต้อง เอกสารต้นฉบับในภาษาดั้งเดิมควรถือเป็นแหล่งข้อมูลที่เชื่อถือได้ สำหรับข้อมูลที่สำคัญ ขอแนะนำให้ใช้บริการแปลภาษามืออาชีพ เราไม่รับผิดชอบต่อความเข้าใจผิดหรือการตีความผิดที่เกิดจากการใช้การแปลนี้