@ -8,8 +8,6 @@
### QK矩阵相乘
上面我们计算好了QK相乘后的矩阵,我们看下原文中的Attention公式
@ -64,4 +62,8 @@ $$
<img src="../assets/image-20240502152450856.png" alt="image-20240502152450856" style="zoom:50%;" />
可以看到`LL`的概率总和是1,`M`的概率总和也是1。以此类推。
可以看到`LL`对其它文本信息的概率总和是1,`M`对其它文本信息的概率总和也是1。以此类推,此时整个矩阵的形状是没有变的。
### QK与V矩阵相乘