# 强化学习简介 强化学习(RL)被认为是与监督学习和无监督学习并列的基本机器学习范式之一。RL的核心是决策:做出正确的决策,或者至少从决策中学习。 想象一下,你有一个模拟环境,比如股票市场。如果你实施某项规定,会发生什么?它会产生积极还是消极的影响?如果发生了消极的事情,你需要接受这种_负强化_,从中学习并调整方向。如果是积极的结果,你需要基于这种_正强化_继续发展。 ![彼得与狼](../../../translated_images/peter.779730f9ba3a8a8d9290600dcf55f2e491c0640c785af7ac0d64f583c49b8864.zh.png) > 彼得和他的朋友们需要逃离饥饿的狼!图片由 [Jen Looper](https://twitter.com/jenlooper) 提供 ## 地区主题:彼得与狼(俄罗斯) [彼得与狼](https://en.wikipedia.org/wiki/Peter_and_the_Wolf) 是由俄罗斯作曲家 [谢尔盖·普罗科菲耶夫](https://en.wikipedia.org/wiki/Sergei_Prokofiev) 创作的一部音乐童话。故事讲述了年轻的先锋彼得勇敢地走出家门,来到森林空地追逐狼。在本节中,我们将训练机器学习算法来帮助彼得: - **探索**周围区域并构建最佳导航地图 - **学习**如何使用滑板并保持平衡,以便更快地移动 [![彼得与狼](https://img.youtube.com/vi/Fmi5zHg4QSM/0.jpg)](https://www.youtube.com/watch?v=Fmi5zHg4QSM) > 🎥 点击上方图片收听普罗科菲耶夫的《彼得与狼》 ## 强化学习 在之前的章节中,你已经看到两种机器学习问题的例子: - **监督学习**,我们有数据集提供问题的样本解决方案。[分类](../4-Classification/README.md) 和 [回归](../2-Regression/README.md) 是监督学习任务。 - **无监督学习**,我们没有标注的训练数据。无监督学习的主要例子是 [聚类](../5-Clustering/README.md)。 在本节中,我们将向你介绍一种不需要标注训练数据的新型学习问题。这类问题有几种类型: - **[半监督学习](https://wikipedia.org/wiki/Semi-supervised_learning)**,我们有大量未标注的数据,可以用来预训练模型。 - **[强化学习](https://wikipedia.org/wiki/Reinforcement_learning)**,代理通过在某些模拟环境中进行实验来学习如何行动。 ### 示例 - 电脑游戏 假设你想教电脑玩游戏,比如国际象棋或 [超级马里奥](https://wikipedia.org/wiki/Super_Mario)。为了让电脑玩游戏,我们需要它预测在每个游戏状态下应该采取的行动。虽然这看起来像是一个分类问题,但实际上并不是——因为我们没有一个包含状态和对应动作的数据集。虽然我们可能有一些数据,比如现有的国际象棋比赛或玩家玩超级马里奥的录像,但这些数据可能不足以覆盖足够多的可能状态。 与其寻找现有的游戏数据,**强化学习**(RL)基于一个理念:*让电脑多次玩游戏并观察结果*。因此,要应用强化学习,我们需要两样东西: - **一个环境**和**一个模拟器**,允许我们多次玩游戏。这个模拟器会定义所有的游戏规则以及可能的状态和动作。 - **一个奖励函数**,告诉我们每次行动或游戏过程中表现得如何。 强化学习与其他类型的机器学习的主要区别在于,在RL中我们通常不知道自己是否赢了或输了,直到游戏结束。因此,我们无法单独判断某个动作是否是好的——我们只有在游戏结束时才会收到奖励。而我们的目标是设计算法,使我们能够在不确定的条件下训练模型。我们将学习一种称为**Q学习**的RL算法。 ## 课程 1. [强化学习和Q学习简介](1-QLearning/README.md) 2. [使用Gym模拟环境](2-Gym/README.md) ## 致谢 《强化学习简介》由 [Dmitry Soshnikov](http://soshnikov.com) 倾情创作 ❤️ --- **免责声明**: 本文档使用AI翻译服务[Co-op Translator](https://github.com/Azure/co-op-translator)进行翻译。尽管我们努力确保翻译的准确性,但请注意,自动翻译可能包含错误或不准确之处。原始语言的文档应被视为权威来源。对于关键信息,建议使用专业人工翻译。我们不对因使用此翻译而产生的任何误解或误读承担责任。