diff --git a/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md b/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md
index 1b7117e..a25f9fa 100644
--- a/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md
+++ b/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md
@@ -157,19 +157,8 @@ QKV分别获得后,QK则是根据路线进行矩阵相乘,如下图
-### QK与V矩阵相乘
+### 总结
-上面我们计算好了QK相乘后的矩阵,我们看下原文中的Attention公式
-$$
-\operatorname{Attention}(Q, K, V)=\operatorname{softmax}\left(\frac{Q K^{T}}{\sqrt{d_{k}}}\right) V
-$$
-
-
-我们单独拿1个批次的第一个头出来
-
-![image-20240502140715615](../assets/image-20240502140715615.png)
-
-第一行的所有数据,分别上`LL`分别跟`LLM with me.郭同学热爱AI喜欢游戏`每个词的相关性。第二行则是`M`分别跟`LLM with me.郭同学热爱AI喜欢游戏`每个词的相关性。越高则代表两个字的相关性越高,越低则代表两个字的相关性越低。
-
-
+本章节介绍了多头注意力机制中的QK矩阵相乘过程。在Transformer模型中,输入文本通过向量化和位置编码转换成数值矩阵,然后通过注意力机制放大语义关系。注意力机制的核心是QKV(Query, Key, Value)的计算,其中Q代表查询信息,K代表被查询的索引,V代表实际的内容信息。
+多头注意力机制通过QK矩阵相乘放大了输入文本中词与词之间的语义关系,使得模型能够更好地捕捉文本的上下文信息,从而提高了模型对语言的理解能力。