|
|
@ -8,8 +8,6 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
### QK矩阵相乘
|
|
|
|
### QK矩阵相乘
|
|
|
|
|
|
|
|
|
|
|
|
上面我们计算好了QK相乘后的矩阵,我们看下原文中的Attention公式
|
|
|
|
上面我们计算好了QK相乘后的矩阵,我们看下原文中的Attention公式
|
|
|
@ -64,4 +62,8 @@ $$
|
|
|
|
|
|
|
|
|
|
|
|
<img src="../assets/image-20240502152450856.png" alt="image-20240502152450856" style="zoom:50%;" />
|
|
|
|
<img src="../assets/image-20240502152450856.png" alt="image-20240502152450856" style="zoom:50%;" />
|
|
|
|
|
|
|
|
|
|
|
|
可以看到`LL`的概率总和是1,`M`的概率总和也是1。以此类推。
|
|
|
|
可以看到`LL`对其它文本信息的概率总和是1,`M`对其它文本信息的概率总和也是1。以此类推,此时整个矩阵的形状是没有变的。
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
### QK与V矩阵相乘
|
|
|
|