You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
ML-For-Beginners/translations/mo/8-Reinforcement/1-QLearning/assignment.md

4.0 KiB

更真實的世界

在我們的情境中Peter 幾乎可以不感到疲倦或飢餓地四處移動。在一個更真實的世界中,他需要時不時地坐下休息,並且需要進食。讓我們通過實現以下規則,使這個世界更加真實:

  1. 每次從一個地方移動到另一個地方Peter 會失去能量並增加一些疲勞
  2. Peter 可以通過吃蘋果來獲得更多能量。
  3. Peter 可以通過在樹下或草地上休息來消除疲勞(即走到有樹或草的棋盤位置 - 綠色區域)。
  4. Peter 需要找到並殺死狼。
  5. 為了殺死狼Peter 需要達到一定的能量和疲勞水平,否則他會輸掉戰鬥。

指導

使用原始的 notebook.ipynb 筆記本作為解決方案的起點。

根據遊戲規則修改上述的獎勵函數,運行強化學習算法以學習贏得遊戲的最佳策略,並比較隨機漫步與您的算法在贏得和輸掉遊戲次數上的結果。

Note: 在您的新世界中,狀態更加複雜,除了人類的位置之外,還包括疲勞和能量水平。您可以選擇將狀態表示為一個元組 (Board,energy,fatigue),或者為狀態定義一個類(您可能還希望從 Board 派生),甚至修改原始的 Board 類,位於 rlboard.py

在您的解決方案中,請保留負責隨機漫步策略的代碼,並在最後比較您的算法與隨機漫步的結果。

Note: 您可能需要調整超參數以使其正常工作,尤其是訓練的迭代次數。由於遊戲的成功(與狼戰鬥)是一個罕見事件,您可以預期更長的訓練時間。

評分標準

評分標準 優秀 合格 需要改進
提供了一個筆記本其中定義了新世界規則、Q-Learning 算法以及一些文字解釋。Q-Learning 能夠顯著改善與隨機漫步相比的結果。 提供了筆記本,實現了 Q-Learning 並改善了與隨機漫步相比的結果,但改善不顯著;或者筆記本文檔不完整,代碼結構不佳。 嘗試重新定義世界規則,但 Q-Learning 算法無法正常工作,或者獎勵函數未完全定義。

免責聲明
本文件已使用 AI 翻譯服務 Co-op Translator 進行翻譯。儘管我們努力確保翻譯的準確性,但請注意,自動翻譯可能包含錯誤或不準確之處。原始文件的母語版本應被視為權威來源。對於關鍵信息,建議使用專業人工翻譯。我們對因使用此翻譯而引起的任何誤解或錯誤解釋不承擔責任。