4.4 KiB
強化學習簡介
強化學習(RL)被視為機器學習的基本範式之一,與監督學習和非監督學習並列。RL 的核心在於決策:做出正確的決定,或者至少從決策中學習。
想像一下你有一個模擬環境,例如股票市場。如果你施加某項規定,會發生什麼事?它會帶來正面還是負面的影響?如果發生負面影響,你需要接受這種_負面強化_,從中學習並改變方向。如果結果是正面的,你需要基於這種_正面強化_進一步發展。
彼得和他的朋友需要逃離飢餓的狼!圖片來源:Jen Looper
地區主題:彼得與狼(俄羅斯)
彼得與狼是一部由俄羅斯作曲家謝爾蓋·普羅科菲耶夫創作的音樂童話故事。故事講述了年輕的先鋒彼得勇敢地走出家門,前往森林空地追逐狼。在本節中,我們將訓練機器學習算法來幫助彼得:
- 探索周邊地區並建立最佳導航地圖
- 學習如何使用滑板並保持平衡,以便更快地移動。
🎥 點擊上方圖片收聽普羅科菲耶夫的《彼得與狼》
強化學習
在之前的章節中,你已經看到兩個機器學習問題的例子:
在本節中,我們將介紹一種不需要標記訓練數據的新型學習問題。有幾種類型的此類問題:
示例 - 電腦遊戲
假設你想教電腦玩遊戲,例如象棋或超級瑪利奧。為了讓電腦玩遊戲,我們需要它在每個遊戲狀態下預測應該採取的行動。雖然這看起來像是一個分類問題,但實際上並不是——因為我們沒有包含狀態和相應行動的數據集。雖然我們可能擁有一些數據,例如現有的象棋比賽或玩家玩超級瑪利奧的錄像,但這些數據可能不足以涵蓋足夠多的可能狀態。
與其尋找現有的遊戲數據,強化學習(RL)的核心理念是讓電腦玩很多次並觀察結果。因此,要應用強化學習,我們需要兩樣東西:
-
一個環境和一個模擬器,允許我們多次玩遊戲。這個模擬器會定義所有的遊戲規則以及可能的狀態和行動。
-
一個獎勵函數,告訴我們在每次行動或遊戲中表現得如何。
強化學習與其他類型的機器學習的主要區別在於,RL 通常直到遊戲結束才知道自己是贏還是輸。因此,我們無法判斷某個單獨的行動是否是好的——我們只有在遊戲結束時才會收到獎勵。我們的目標是設計算法,讓我們能夠在不確定的條件下訓練模型。我們將學習一種名為Q-learning的 RL 算法。
課程
致謝
《強化學習簡介》由德米特里·索什尼科夫用♥️撰寫。
免責聲明:
本文件已使用人工智能翻譯服務 Co-op Translator 進行翻譯。儘管我們致力於提供準確的翻譯,但請注意,自動翻譯可能包含錯誤或不準確之處。原始語言的文件應被視為權威來源。對於重要資訊,建議使用專業人工翻譯。我們對因使用此翻譯而引起的任何誤解或錯誤解釋概不負責。