Create. 第四章——多头注意力机制——QK矩阵相乘

master
ben.guo 6 months ago
parent a29294c747
commit 6118b1904e

Binary file not shown.

After

Width:  |  Height:  |  Size: 134 KiB

Binary file not shown.

@ -0,0 +1,28 @@
# 第四章——多头注意力机制——QK矩阵相乘
<img src="../assets/image-20240502141958851.png" alt="image-20240502141958851" style="zoom:50%;" />
### 前言
上一章我们已经研究了矩阵相乘以及QK相乘的过程接下来我们完整的走一遍多头注意力机制里的流程。
### QK矩阵相乘
上面我们计算好了QK相乘后的矩阵我们看下原文中的Attention公式
$$
\operatorname{Attention}(Q, K, V)=\operatorname{softmax}\left(\frac{Q K^{T}}{\sqrt{d_{k}}}\right) V
$$
<img src="../assets/image-20240502140356134.png" alt="image-20240502140356134" style="zoom:50%;" />
我们单独拿1个批次的第一个头出来
![image-20240502140715615](../assets/image-20240502140715615.png)
第一行的所有数据,分别上`LL`分别跟`LLM with me.郭同学热爱AI喜欢游戏`每个词的相关性。第二行则是`M`分别跟`LLM with me.郭同学热爱AI喜欢游戏`每个词的相关性。越高则代表两个字的相关性越高,越低则代表两个字的相关性越低。
<img src="../assets/image-20240502141342857.png" alt="image-20240502141342857" style="zoom:50%;" />
Loading…
Cancel
Save