You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
ML-For-Beginners/translations/hk/8-Reinforcement/README.md

67 lines
4.4 KiB

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

<!--
CO_OP_TRANSLATOR_METADATA:
{
"original_hash": "20ca019012b1725de956681d036d8b18",
"translation_date": "2025-09-03T18:27:01+00:00",
"source_file": "8-Reinforcement/README.md",
"language_code": "hk"
}
-->
# 強化學習簡介
強化學習RL被視為機器學習的基本範式之一與監督學習和非監督學習並列。RL 的核心在於決策:做出正確的決定,或者至少從決策中學習。
想像一下你有一個模擬環境例如股票市場。如果你施加某項規定會發生什麼事它會帶來正面還是負面的影響如果發生負面影響你需要接受這種_負面強化_從中學習並改變方向。如果結果是正面的你需要基於這種_正面強化_進一步發展。
![彼得與狼](../../../translated_images/peter.779730f9ba3a8a8d9290600dcf55f2e491c0640c785af7ac0d64f583c49b8864.hk.png)
> 彼得和他的朋友需要逃離飢餓的狼!圖片來源:[Jen Looper](https://twitter.com/jenlooper)
## 地區主題:彼得與狼(俄羅斯)
[彼得與狼](https://en.wikipedia.org/wiki/Peter_and_the_Wolf)是一部由俄羅斯作曲家[謝爾蓋·普羅科菲耶夫](https://en.wikipedia.org/wiki/Sergei_Prokofiev)創作的音樂童話故事。故事講述了年輕的先鋒彼得勇敢地走出家門,前往森林空地追逐狼。在本節中,我們將訓練機器學習算法來幫助彼得:
- **探索**周邊地區並建立最佳導航地圖
- **學習**如何使用滑板並保持平衡,以便更快地移動。
[![彼得與狼](https://img.youtube.com/vi/Fmi5zHg4QSM/0.jpg)](https://www.youtube.com/watch?v=Fmi5zHg4QSM)
> 🎥 點擊上方圖片收聽普羅科菲耶夫的《彼得與狼》
## 強化學習
在之前的章節中,你已經看到兩個機器學習問題的例子:
- **監督學習**,我們擁有建議問題解決方案的數據集。[分類](../4-Classification/README.md)和[回歸](../2-Regression/README.md)是監督學習任務。
- **非監督學習**,我們沒有標記的訓練數據。非監督學習的主要例子是[聚類](../5-Clustering/README.md)。
在本節中,我們將介紹一種不需要標記訓練數據的新型學習問題。有幾種類型的此類問題:
- **[半監督學習](https://wikipedia.org/wiki/Semi-supervised_learning)**,我們擁有大量未標記的數據,可以用來預訓練模型。
- **[強化學習](https://wikipedia.org/wiki/Reinforcement_learning)**,代理通過在某些模擬環境中進行實驗來學習如何行為。
### 示例 - 電腦遊戲
假設你想教電腦玩遊戲,例如象棋或[超級瑪利奧](https://wikipedia.org/wiki/Super_Mario)。為了讓電腦玩遊戲,我們需要它在每個遊戲狀態下預測應該採取的行動。雖然這看起來像是一個分類問題,但實際上並不是——因為我們沒有包含狀態和相應行動的數據集。雖然我們可能擁有一些數據,例如現有的象棋比賽或玩家玩超級瑪利奧的錄像,但這些數據可能不足以涵蓋足夠多的可能狀態。
與其尋找現有的遊戲數據,**強化學習**RL的核心理念是讓電腦玩很多次並觀察結果。因此要應用強化學習我們需要兩樣東西
- **一個環境**和**一個模擬器**,允許我們多次玩遊戲。這個模擬器會定義所有的遊戲規則以及可能的狀態和行動。
- **一個獎勵函數**,告訴我們在每次行動或遊戲中表現得如何。
強化學習與其他類型的機器學習的主要區別在於RL 通常直到遊戲結束才知道自己是贏還是輸。因此,我們無法判斷某個單獨的行動是否是好的——我們只有在遊戲結束時才會收到獎勵。我們的目標是設計算法,讓我們能夠在不確定的條件下訓練模型。我們將學習一種名為**Q-learning**的 RL 算法。
## 課程
1. [強化學習與 Q-Learning 簡介](1-QLearning/README.md)
2. [使用 gym 模擬環境](2-Gym/README.md)
## 致謝
《強化學習簡介》由[德米特里·索什尼科夫](http://soshnikov.com)用♥️撰寫。
---
**免責聲明**
本文件已使用人工智能翻譯服務 [Co-op Translator](https://github.com/Azure/co-op-translator) 進行翻譯。儘管我們致力於提供準確的翻譯,但請注意,自動翻譯可能包含錯誤或不準確之處。原始語言的文件應被視為權威來源。對於重要資訊,建議使用專業人工翻譯。我們對因使用此翻譯而引起的任何誤解或錯誤解釋概不負責。