diff --git a/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md b/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md index 1b7117e..a25f9fa 100644 --- a/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md +++ b/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md @@ -157,19 +157,8 @@ QKV分别获得后,QK则是根据路线进行矩阵相乘,如下图 -### QK与V矩阵相乘 +### 总结 -上面我们计算好了QK相乘后的矩阵,我们看下原文中的Attention公式 -$$ -\operatorname{Attention}(Q, K, V)=\operatorname{softmax}\left(\frac{Q K^{T}}{\sqrt{d_{k}}}\right) V -$$ -image-20240502140356134 - -我们单独拿1个批次的第一个头出来 - -![image-20240502140715615](../assets/image-20240502140715615.png) - -第一行的所有数据,分别上`LL`分别跟`LLM with me.郭同学热爱AI喜欢游戏`每个词的相关性。第二行则是`M`分别跟`LLM with me.郭同学热爱AI喜欢游戏`每个词的相关性。越高则代表两个字的相关性越高,越低则代表两个字的相关性越低。 - -image-20240502141342857 +本章节介绍了多头注意力机制中的QK矩阵相乘过程。在Transformer模型中,输入文本通过向量化和位置编码转换成数值矩阵,然后通过注意力机制放大语义关系。注意力机制的核心是QKV(Query, Key, Value)的计算,其中Q代表查询信息,K代表被查询的索引,V代表实际的内容信息。 +多头注意力机制通过QK矩阵相乘放大了输入文本中词与词之间的语义关系,使得模型能够更好地捕捉文本的上下文信息,从而提高了模型对语言的理解能力。