Update. 补充A与Z的说明

master
ben.guo 6 months ago
parent 3025191ab7
commit 2d701745d9

@ -17,6 +17,8 @@
> Scale缩放层。缩放操作通常用于调整矩阵乘法的结果。在计算注意力分数之前会将查询和键的矩阵乘法结果除以一个缩放因子通常是键向量维度的平方根。这样做是为了防止在进行softmax操作之前注意力分数过大导致梯度消失问题。 > Scale缩放层。缩放操作通常用于调整矩阵乘法的结果。在计算注意力分数之前会将查询和键的矩阵乘法结果除以一个缩放因子通常是键向量维度的平方根。这样做是为了防止在进行softmax操作之前注意力分数过大导致梯度消失问题。
> >
> Softmax软最大值。oftmax用于将注意力分数经过缩放的矩阵乘法结果转换为概率值这些概率值表示每个头在给定输入时应该关注的程度。 > Softmax软最大值。oftmax用于将注意力分数经过缩放的矩阵乘法结果转换为概率值这些概率值表示每个头在给定输入时应该关注的程度。
>
> 另外上面的A有的文章会写成Z两者是一样的。
输入矩阵X会变成3份分别去乘以不同的权重W。变成QKV经过各种层后最终输出上面说的缩放好的点积注意力机制也就是除开Scale、Maks、Softmax外是包裹了两次的矩阵相乘。这也是最重要的部分为什么是矩阵相乘呢矩阵相乘能代表词之间的关注度高低吗 输入矩阵X会变成3份分别去乘以不同的权重W。变成QKV经过各种层后最终输出上面说的缩放好的点积注意力机制也就是除开Scale、Maks、Softmax外是包裹了两次的矩阵相乘。这也是最重要的部分为什么是矩阵相乘呢矩阵相乘能代表词之间的关注度高低吗

Loading…
Cancel
Save