4.4 KiB
强化学习简介
强化学习(RL)被认为是与监督学习和无监督学习并列的基本机器学习范式之一。RL的核心是决策:做出正确的决策,或者至少从决策中学习。
想象一下,你有一个模拟环境,比如股票市场。如果你实施某项规定,会发生什么?它会产生积极还是消极的影响?如果发生了消极的事情,你需要接受这种_负强化_,从中学习并调整方向。如果是积极的结果,你需要基于这种_正强化_继续发展。
彼得和他的朋友们需要逃离饥饿的狼!图片由 Jen Looper 提供
地区主题:彼得与狼(俄罗斯)
彼得与狼 是由俄罗斯作曲家 谢尔盖·普罗科菲耶夫 创作的一部音乐童话。故事讲述了年轻的先锋彼得勇敢地走出家门,来到森林空地追逐狼。在本节中,我们将训练机器学习算法来帮助彼得:
- 探索周围区域并构建最佳导航地图
- 学习如何使用滑板并保持平衡,以便更快地移动
🎥 点击上方图片收听普罗科菲耶夫的《彼得与狼》
强化学习
在之前的章节中,你已经看到两种机器学习问题的例子:
在本节中,我们将向你介绍一种不需要标注训练数据的新型学习问题。这类问题有几种类型:
示例 - 电脑游戏
假设你想教电脑玩游戏,比如国际象棋或 超级马里奥。为了让电脑玩游戏,我们需要它预测在每个游戏状态下应该采取的行动。虽然这看起来像是一个分类问题,但实际上并不是——因为我们没有一个包含状态和对应动作的数据集。虽然我们可能有一些数据,比如现有的国际象棋比赛或玩家玩超级马里奥的录像,但这些数据可能不足以覆盖足够多的可能状态。
与其寻找现有的游戏数据,强化学习(RL)基于一个理念:让电脑多次玩游戏并观察结果。因此,要应用强化学习,我们需要两样东西:
-
一个环境和一个模拟器,允许我们多次玩游戏。这个模拟器会定义所有的游戏规则以及可能的状态和动作。
-
一个奖励函数,告诉我们每次行动或游戏过程中表现得如何。
强化学习与其他类型的机器学习的主要区别在于,在RL中我们通常不知道自己是否赢了或输了,直到游戏结束。因此,我们无法单独判断某个动作是否是好的——我们只有在游戏结束时才会收到奖励。而我们的目标是设计算法,使我们能够在不确定的条件下训练模型。我们将学习一种称为Q学习的RL算法。
课程
致谢
《强化学习简介》由 Dmitry Soshnikov 倾情创作 ❤️
免责声明:
本文档使用AI翻译服务Co-op Translator进行翻译。尽管我们努力确保翻译的准确性,但请注意,自动翻译可能包含错误或不准确之处。原始语言的文档应被视为权威来源。对于关键信息,建议使用专业人工翻译。我们不对因使用此翻译而产生的任何误解或误读承担责任。