4.4 KiB

Raw Permalink Blame History Unescape Escape

强化学习简介

强化学习（RL）被认为是与监督学习和无监督学习并列的基本机器学习范式之一。RL的核心是决策：做出正确的决策，或者至少从决策中学习。

想象一下，你有一个模拟环境，比如股票市场。如果你实施某项规定，会发生什么？它会产生积极还是消极的影响？如果发生了消极的事情，你需要接受这种_负强化_，从中学习并调整方向。如果是积极的结果，你需要基于这种_正强化_继续发展。

彼得和他的朋友们需要逃离饥饿的狼！图片由 Jen Looper 提供

地区主题：彼得与狼（俄罗斯）

彼得与狼是由俄罗斯作曲家谢尔盖·普罗科菲耶夫创作的一部音乐童话。故事讲述了年轻的先锋彼得勇敢地走出家门，来到森林空地追逐狼。在本节中，我们将训练机器学习算法来帮助彼得：

探索周围区域并构建最佳导航地图
学习如何使用滑板并保持平衡，以便更快地移动

🎥 点击上方图片收听普罗科菲耶夫的《彼得与狼》

强化学习

在之前的章节中，你已经看到两种机器学习问题的例子：

监督学习，我们有数据集提供问题的样本解决方案。分类和回归是监督学习任务。
无监督学习，我们没有标注的训练数据。无监督学习的主要例子是聚类。

在本节中，我们将向你介绍一种不需要标注训练数据的新型学习问题。这类问题有几种类型：

半监督学习，我们有大量未标注的数据，可以用来预训练模型。
强化学习，代理通过在某些模拟环境中进行实验来学习如何行动。

示例 - 电脑游戏

假设你想教电脑玩游戏，比如国际象棋或超级马里奥。为了让电脑玩游戏，我们需要它预测在每个游戏状态下应该采取的行动。虽然这看起来像是一个分类问题，但实际上并不是——因为我们没有一个包含状态和对应动作的数据集。虽然我们可能有一些数据，比如现有的国际象棋比赛或玩家玩超级马里奥的录像，但这些数据可能不足以覆盖足够多的可能状态。

与其寻找现有的游戏数据，强化学习（RL）基于一个理念：让电脑多次玩游戏并观察结果。因此，要应用强化学习，我们需要两样东西：

一个环境和一个模拟器，允许我们多次玩游戏。这个模拟器会定义所有的游戏规则以及可能的状态和动作。
一个奖励函数，告诉我们每次行动或游戏过程中表现得如何。

强化学习与其他类型的机器学习的主要区别在于，在RL中我们通常不知道自己是否赢了或输了，直到游戏结束。因此，我们无法单独判断某个动作是否是好的——我们只有在游戏结束时才会收到奖励。而我们的目标是设计算法，使我们能够在不确定的条件下训练模型。我们将学习一种称为Q学习的RL算法。

课程

致谢

《强化学习简介》由 Dmitry Soshnikov 倾情创作 ❤️

免责声明：
本文档使用AI翻译服务Co-op Translator进行翻译。尽管我们努力确保翻译的准确性，但请注意，自动翻译可能包含错误或不准确之处。原始语言的文档应被视为权威来源。对于关键信息，建议使用专业人工翻译。我们不对因使用此翻译而产生的任何误解或误读承担责任。

4.4 KiB Raw Permalink Blame History Unescape Escape

强化学习简介

地区主题：彼得与狼（俄罗斯）

强化学习

示例 - 电脑游戏

课程

致谢

4.4 KiB

Raw Permalink Blame History Unescape Escape