一个更真实的世界

在我们的情境中，彼得几乎可以不感到疲倦或饥饿地四处移动。在一个更真实的世界中，他需要时不时地坐下来休息，还需要吃东西。让我们通过实现以下规则使我们的世界更加真实：

指导

使用原始的 notebook.ipynb 笔记本作为解决方案的起点。

根据游戏规则修改上述奖励函数，运行强化学习算法以学习赢得游戏的最佳策略，并比较随机漫步算法与您的算法在赢得和输掉游戏数量方面的结果。

Note: 在您的新世界中，状态更加复杂，除了人类位置外，还包括疲劳和能量水平。您可以选择将状态表示为元组 (Board,energy,fatigue)，或者为状态定义一个类（您也可以从 Board 派生它），甚至可以修改原始的 Board 类在 rlboard.py 中。

在您的解决方案中，请保留负责随机漫步策略的代码，并在最后将您的算法结果与随机漫步进行比较。

Note: 您可能需要调整超参数以使其正常工作，尤其是训练次数。由于游戏的成功（与狼战斗）是一个罕见事件，您可以预期更长的训练时间。

标准	杰出	合格	需要改进
	提供了一个定义新世界规则的笔记本，Q-Learning 算法和一些文字解释。Q-Learning 能够显著改善与随机漫步相比的结果。	提供了笔记本，Q-Learning 已实现并改善了与随机漫步相比的结果，但并不显著；或者笔记本记录不充分，代码结构不良。	尝试重新定义世界规则，但 Q-Learning 算法不起作用，或者奖励函数未完全定义。

免责声明：本文件使用基于机器的人工智能翻译服务进行翻译。尽管我们努力确保准确性，但请注意，自动翻译可能包含错误或不准确之处。应将原始语言的文件视为权威来源。对于关键信息，建议进行专业的人工翻译。对于因使用本翻译而产生的任何误解或误读，我们不承担责任。