|
|
|
@ -265,7 +265,7 @@ import random
|
|
|
|
|
|
|
|
|
|
- **接近我们的目标**。我们非常接近实现在连续 100 多次模拟运行中获得 195 个累积奖励的目标,或者我们可能真的实现了!即使我们得到更小的数字,我们仍然不知道,因为我们平均超过 5000 次运行,而在正式标准中只需要 100 次运行。
|
|
|
|
|
|
|
|
|
|
- **奖励开始下降**。有时奖励开始下降,这意味着我们可以"破坏" Q-Table 中已经学习到的值,这些值会使情况变得更糟。
|
|
|
|
|
- **奖励开始下降**。有时奖励开始下降,这意味着我们可以“破坏” Q-Table 中已经学习到的值,这些值会使情况变得更糟。
|
|
|
|
|
|
|
|
|
|
如果我们绘制训练进度图,则这种观察会更加清晰可见。
|
|
|
|
|
|
|
|
|
@ -279,7 +279,7 @@ plt.plot(reawrd)
|
|
|
|
|
|
|
|
|
|

|
|
|
|
|
|
|
|
|
|
从这张图中,无法说明任何事情,因为由于随机训练过程的性质,训练课程的长度差异很大。为了更好地理解这个图,我们可以计算一系列实验的 **running average**,假设为 100。这可以使用 `np.convolve` 方便地完成:(代码块 12)
|
|
|
|
|
从这张图中,无法说明任何事情,因为由于随机训练过程的性质,训练课程的长度差异很大。为了更好地理解这个图,我们可以计算一系列实验的 **running average**,假设为 100。这可以使用 `np.convolve` 方便地完成:(代码块 12)
|
|
|
|
|
|
|
|
|
|
```python
|
|
|
|
|
def running_average(x,window):
|
|
|
|
|