Add. 总结

master
ben.guo 6 months ago
parent 5ebf1c65e9
commit a29294c747

@ -157,19 +157,8 @@ QKV分别获得后QK则是根据路线进行矩阵相乘如下图
### QK与V矩阵相乘
### 总结
上面我们计算好了QK相乘后的矩阵我们看下原文中的Attention公式
$$
\operatorname{Attention}(Q, K, V)=\operatorname{softmax}\left(\frac{Q K^{T}}{\sqrt{d_{k}}}\right) V
$$
<img src="../assets/image-20240502140356134.png" alt="image-20240502140356134" style="zoom:50%;" />
我们单独拿1个批次的第一个头出来
![image-20240502140715615](../assets/image-20240502140715615.png)
第一行的所有数据,分别上`LL`分别跟`LLM with me.郭同学热爱AI喜欢游戏`每个词的相关性。第二行则是`M`分别跟`LLM with me.郭同学热爱AI喜欢游戏`每个词的相关性。越高则代表两个字的相关性越高,越低则代表两个字的相关性越低。
<img src="../assets/image-20240502141342857.png" alt="image-20240502141342857" style="zoom:50%;" />
本章节介绍了多头注意力机制中的QK矩阵相乘过程。在Transformer模型中输入文本通过向量化和位置编码转换成数值矩阵然后通过注意力机制放大语义关系。注意力机制的核心是QKVQuery, Key, Value的计算其中Q代表查询信息K代表被查询的索引V代表实际的内容信息。
多头注意力机制通过QK矩阵相乘放大了输入文本中词与词之间的语义关系使得模型能够更好地捕捉文本的上下文信息从而提高了模型对语言的理解能力。

Loading…
Cancel
Save