Add. Softmax归一化

master
ben.guo 6 months ago
parent b3bdec33cb
commit de6d9c6f31

BIN
.DS_Store vendored

Binary file not shown.

BIN
assets/.DS_Store vendored

Binary file not shown.

Binary file not shown.

Before

Width:  |  Height:  |  Size: 226 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 239 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 70 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 112 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 114 KiB

Binary file not shown.

@ -44,9 +44,24 @@ $$
将矩阵的上三角部分(包括对角线)填充为 `-inf`或者0。
<img src="../assets/image-20240502143837209.png" alt="image-20240502143837209" style="zoom:50%;" />
<img src="../assets/image-20240502150743024.png" alt="image-20240502150743024" style="zoom:50%;" />
训练的过程中(语言模型场景),是从前往后训练,然后去预测后面的词(句子),所以训练过程中,我们要遮挡一部分,让模型不知道后面的信息,自动去生成然后校验生成与实际之间的差距。
### Softmax归一化
将上面的值转成0到1直接的值即百分比的概率分布。它会放大分数较高的元素并抑制分数较低的元素。在注意力机制中这意味着模型可以更加集中地关注那些与当前查询Query最相关的键Key从而获取对应的值Value
<img src="../assets/image-20240502150841107.png" alt="image-20240502150841107" style="zoom:50%;" />
Softmax函数的公式如下
$$
\text{Softmax}(z_i) = \frac{e^{z_i}}{\sum_{j=1}^{K} e^{z_j}}
$$
这里就不做详解你就简单理解为它可以将一批值转换为一个概率分布其中每个元素的值介于0和1之间并且所有元素的和为1。
<img src="../assets/image-20240502152450856.png" alt="image-20240502152450856" style="zoom:50%;" />
可以看到`LL`的概率总和是1`M`的概率总和也是1。以此类推。

Loading…
Cancel
Save