JudyZhangYifan
93bcc7ff1b
|
3 years ago | |
---|---|---|
.. | ||
README.es.md | 3 years ago | |
README.ru.md | 3 years ago | |
README.zh-cn.md | 3 years ago |
README.zh-cn.md
强化学习介绍
强化学习(Reinforcement learning,RL)被视为基础机器学习除监督学习以及无监督学习之外的范式之一。强化学习是完全关于决策的,它可以提供正确的决策或者至少能从他们中学习。
想象你现在有一个例如股票市场的模拟环境。如果你施加了一条给定的规章制度的话,将会发生什么呢?这条规章制度会带来积极还是消极的影响呢?如果产生了负面影响的话,那么你就需要接受这种 负强化 ,从中学习并改变方针。如果产生了正面的成果,那么你就需要基于这种 正强化 越做越好。
彼得和他的朋友们需要逃离饥饿的狼!(图片来自:Jen Looper)
区域主题:彼得与狼(俄罗斯)
彼得与狼 是前苏联作曲家普罗科菲耶夫写的一部交响童话。它讲述的是少先队员彼得勇敢地离家到森林空地去追捕狼的故事。在本节中,我们将训练可以帮助彼得的机器学习算法:
- 探索 周边区域并构建一张最佳的导航地图
- 学习 如何使用滑板并在上面保持平衡,以便更加快速地移动。
🎥 点击上图聆听普罗科菲耶夫的《彼得与狼》
强化学习
在之前的章节中,你已经看到了两个机器学习问题的例子:
在本节中,我们会向你介绍一种新的学习问题。这种问题不需要有标签的训练数据,它们有以下几类问题:
例子 - 电脑游戏
假设你想要教会电脑如何玩一个例如国际象棋或者超级马里奥的游戏。对于电脑来说,我们需要让它预测在每个游戏状态下它的动作才能使它成功地玩游戏。虽然这看上去像是个分类问题,但是事实并非如此——因为我们没有包含(游戏)状态和相应动作的数据集。虽然我们可能有一些现有的国际象棋比赛数据或者玩家玩超级马里奥的记录,但是那些数据很可能无法包含足够多的潜在(游戏)状态。
强化学习 (RL) 不是寻找现有的游戏数据,而是基于一种想让电脑玩 多次并观察结果的想法。因此,我们需要做以下两件事来应用强化学习:
-
环境 和 模拟器 ——可以让我们多次玩游戏。这个模拟器将定义所有游戏的规则、可能的状态以及动作。
-
奖励函数 ——会告诉我们在每个动作或游戏中的表现如何。
其他机器学习和强化学习(RL)的主要差别就是在RL中我们通常无法在完成游戏之前知道我们是赢还是输。因此,我们无法评价游戏中的某一个特定动作是好是坏——我们只会在游戏结束时才得到奖励。我们的目标是设计一种可以在不确定条件下帮我们训练模型的算法。接下来我们将要学习一种叫Q-learning的RL算法。
课程
Credits
"强化学习介绍"由Dmitry Soshnikov撰写 ♥️