Create. 第四章——多头注意力机制——QK矩阵相乘

6 months ago · 6118b1904e
parent a29294c747
commit 6118b1904e
3 changed files with 28 additions and 0 deletions
--- a/assets/image-20240502141958851.png
+++ b/assets/image-20240502141958851.png
--- a/人人都能看懂的Transformer/.DS_Store
+++ b/人人都能看懂的Transformer/.DS_Store
--- a/人人都能看懂的Transformer/第五章——多头注意力机制——全流程.md
+++ b/人人都能看懂的Transformer/第五章——多头注意力机制——全流程.md
@ -0,0 +1,28 @@
+# 第四章——多头注意力机制——QK矩阵相乘
+
+<img src="../assets/image-20240502141958851.png" alt="image-20240502141958851" style="zoom:50%;" />
+
+### 前言
+
+上一章，我们已经研究了矩阵相乘以及QK相乘的过程，接下来我们完整的走一遍多头注意力机制里的流程。
+
+
+
+
+
+### QK矩阵相乘
+
+上面我们计算好了QK相乘后的矩阵，我们看下原文中的Attention公式
+$$
+\operatorname{Attention}(Q, K, V)=\operatorname{softmax}\left(\frac{Q K^{T}}{\sqrt{d_{k}}}\right) V
+$$
+<img src="../assets/image-20240502140356134.png" alt="image-20240502140356134" style="zoom:50%;" />
+
+我们单独拿1个批次的第一个头出来
+
+![image-20240502140715615](../assets/image-20240502140715615.png)
+
+第一行的所有数据，分别上`LL`分别跟`LLM with me.郭同学热爱AI喜欢游戏`每个词的相关性。第二行则是`M`分别跟`LLM with me.郭同学热爱AI喜欢游戏`每个词的相关性。越高则代表两个字的相关性越高，越低则代表两个字的相关性越低。
+
+<img src="../assets/image-20240502141342857.png" alt="image-20240502141342857" style="zoom:50%;" />
+