You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
4.1 KiB
4.1 KiB
一個更真實的世界
在我們的情境中,彼得幾乎可以毫不疲倦或飢餓地四處移動。在一個更真實的世界裡,他需要不時地坐下來休息,還需要進食。我們來讓這個世界更貼近現實,通過實現以下規則:
- 每次從一個地方移動到另一個地方,彼得會損失一些能量並增加一些疲勞。
- 彼得可以通過吃蘋果來獲得更多能量。
- 彼得可以通過在樹下或草地上休息來消除疲勞(例如,走到有樹或草地的棋盤位置——綠色區域)。
- 彼得需要找到並擊敗狼。
- 為了擊敗狼,彼得需要達到一定的能量和疲勞水平,否則他會輸掉戰鬥。
指導說明
使用原始的 notebook.ipynb 筆記本作為解決方案的起點。
根據遊戲規則修改上述的獎勵函數,運行強化學習算法以學習贏得遊戲的最佳策略,並將隨機漫步的結果與你的算法進行比較,從而分析贏得和輸掉的遊戲數量。
Note: 在你的新世界中,狀態會更加複雜,除了人類的位置,還包括疲勞和能量水平。你可以選擇將狀態表示為一個元組 (Board, energy, fatigue),或者為狀態定義一個類(你也可以考慮從
Board
繼承),甚至修改原始的Board
類(位於 rlboard.py 中)。
在你的解決方案中,請保留負責隨機漫步策略的代碼,並在最後將你的算法結果與隨機漫步進行比較。
Note: 你可能需要調整超參數以使其正常運行,特別是訓練的迭代次數。由於遊戲的成功(例如擊敗狼)是一個罕見事件,你可以預期訓練時間會更長。
評分標準
評分標準 | 優秀 | 合格 | 需要改進 |
---|---|---|---|
筆記本展示了新世界規則的定義、Q-Learning 算法以及一些文字說明。Q-Learning 能夠顯著改善與隨機漫步相比的結果。 | 筆記本展示了 Q-Learning 的實現,並且結果相比隨機漫步有所改善,但不顯著;或者筆記本文檔不完整,代碼結構不佳。 | 嘗試重新定義世界規則,但 Q-Learning 算法無法正常運行,或者獎勵函數未完全定義。 |
免責聲明:
本文件已使用 AI 翻譯服務 Co-op Translator 進行翻譯。儘管我們致力於提供準確的翻譯,請注意自動翻譯可能包含錯誤或不準確之處。原始文件的母語版本應被視為權威來源。對於關鍵資訊,建議使用專業人工翻譯。我們對因使用此翻譯而產生的任何誤解或錯誤解釋不承擔責任。