You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
ML-For-Beginners/translations/zh/8-Reinforcement/1-QLearning/assignment.md

28 lines
3.5 KiB

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

# 一个更真实的世界
在我们的情境中,彼得几乎可以不感到疲倦或饥饿地四处移动。在一个更真实的世界中,他需要时不时地坐下来休息,还需要吃东西。让我们通过实现以下规则使我们的世界更加真实:
1. 从一个地方移动到另一个地方时,彼得会失去**能量**并获得一些**疲劳**。
2. 彼得可以通过吃苹果来获得更多能量。
3. 彼得可以通过在树下或草地上休息来消除疲劳(即走到有树或草的棋盘位置 - 绿色区域)。
4. 彼得需要找到并杀死狼。
5. 为了杀死狼,彼得需要有一定的能量和疲劳水平,否则他会输掉战斗。
## 指导
使用原始的 [notebook.ipynb](../../../../8-Reinforcement/1-QLearning/notebook.ipynb) 笔记本作为解决方案的起点。
根据游戏规则修改上述奖励函数,运行强化学习算法以学习赢得游戏的最佳策略,并比较随机漫步算法与您的算法在赢得和输掉游戏数量方面的结果。
> **Note**: 在您的新世界中,状态更加复杂,除了人类位置外,还包括疲劳和能量水平。您可以选择将状态表示为元组 (Board,energy,fatigue),或者为状态定义一个类(您也可以从 `Board` 派生它),甚至可以修改原始的 `Board` 类在 [rlboard.py](../../../../8-Reinforcement/1-QLearning/rlboard.py) 中。
在您的解决方案中,请保留负责随机漫步策略的代码,并在最后将您的算法结果与随机漫步进行比较。
> **Note**: 您可能需要调整超参数以使其正常工作,尤其是训练次数。由于游戏的成功(与狼战斗)是一个罕见事件,您可以预期更长的训练时间。
## 评分标准
| 标准 | 杰出 | 合格 | 需要改进 |
| -------- | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------ | ----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------- |
| | 提供了一个定义新世界规则的笔记本Q-Learning 算法和一些文字解释。Q-Learning 能够显著改善与随机漫步相比的结果。 | 提供了笔记本Q-Learning 已实现并改善了与随机漫步相比的结果,但并不显著;或者笔记本记录不充分,代码结构不良。 | 尝试重新定义世界规则,但 Q-Learning 算法不起作用,或者奖励函数未完全定义。 |
**免责声明**
本文件使用基于机器的人工智能翻译服务进行翻译。尽管我们努力确保准确性,但请注意,自动翻译可能包含错误或不准确之处。应将原始语言的文件视为权威来源。对于关键信息,建议进行专业的人工翻译。对于因使用本翻译而产生的任何误解或误读,我们不承担责任。