# 一个更真实的世界 在我们的情境中,彼得几乎可以不感到疲倦或饥饿地四处移动。在一个更真实的世界中,他需要时不时地坐下来休息,还需要吃东西。让我们通过实现以下规则使我们的世界更加真实: 1. 从一个地方移动到另一个地方时,彼得会失去**能量**并获得一些**疲劳**。 2. 彼得可以通过吃苹果来获得更多能量。 3. 彼得可以通过在树下或草地上休息来消除疲劳(即走到有树或草的棋盘位置 - 绿色区域)。 4. 彼得需要找到并杀死狼。 5. 为了杀死狼,彼得需要有一定的能量和疲劳水平,否则他会输掉战斗。 ## 指导 使用原始的 [notebook.ipynb](../../../../8-Reinforcement/1-QLearning/notebook.ipynb) 笔记本作为解决方案的起点。 根据游戏规则修改上述奖励函数,运行强化学习算法以学习赢得游戏的最佳策略,并比较随机漫步算法与您的算法在赢得和输掉游戏数量方面的结果。 > **Note**: 在您的新世界中,状态更加复杂,除了人类位置外,还包括疲劳和能量水平。您可以选择将状态表示为元组 (Board,energy,fatigue),或者为状态定义一个类(您也可以从 `Board` 派生它),甚至可以修改原始的 `Board` 类在 [rlboard.py](../../../../8-Reinforcement/1-QLearning/rlboard.py) 中。 在您的解决方案中,请保留负责随机漫步策略的代码,并在最后将您的算法结果与随机漫步进行比较。 > **Note**: 您可能需要调整超参数以使其正常工作,尤其是训练次数。由于游戏的成功(与狼战斗)是一个罕见事件,您可以预期更长的训练时间。 ## 评分标准 | 标准 | 杰出 | 合格 | 需要改进 | | -------- | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------ | ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------- | | | 提供了一个定义新世界规则的笔记本,Q-Learning 算法和一些文字解释。Q-Learning 能够显著改善与随机漫步相比的结果。 | 提供了笔记本,Q-Learning 已实现并改善了与随机漫步相比的结果,但并不显著;或者笔记本记录不充分,代码结构不良。 | 尝试重新定义世界规则,但 Q-Learning 算法不起作用,或者奖励函数未完全定义。 | **免责声明**: 本文件使用基于机器的人工智能翻译服务进行翻译。尽管我们努力确保准确性,但请注意,自动翻译可能包含错误或不准确之处。应将原始语言的文件视为权威来源。对于关键信息,建议进行专业的人工翻译。对于因使用本翻译而产生的任何误解或误读,我们不承担责任。