From a29294c7471dbf70c6696589a3d0e1ee3022bcb5 Mon Sep 17 00:00:00 2001
From: "ben.guo" <909336740@qq.com>
Date: Thu, 2 May 2024 14:23:53 +0800
Subject: [PATCH] =?UTF-8?q?Add.=20=E6=80=BB=E7=BB=93?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit
---
...多头注意力机制——QK矩阵相乘.md | 17 +++--------------
1 file changed, 3 insertions(+), 14 deletions(-)
diff --git a/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md b/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md
index 1b7117e..a25f9fa 100644
--- a/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md
+++ b/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md
@@ -157,19 +157,8 @@ QKV分别获得后,QK则是根据路线进行矩阵相乘,如下图
-### QK与V矩阵相乘
+### 总结
-上面我们计算好了QK相乘后的矩阵,我们看下原文中的Attention公式
-$$
-\operatorname{Attention}(Q, K, V)=\operatorname{softmax}\left(\frac{Q K^{T}}{\sqrt{d_{k}}}\right) V
-$$
-
-
-我们单独拿1个批次的第一个头出来
-
-![image-20240502140715615](../assets/image-20240502140715615.png)
-
-第一行的所有数据,分别上`LL`分别跟`LLM with me.郭同学热爱AI喜欢游戏`每个词的相关性。第二行则是`M`分别跟`LLM with me.郭同学热爱AI喜欢游戏`每个词的相关性。越高则代表两个字的相关性越高,越低则代表两个字的相关性越低。
-
-
+本章节介绍了多头注意力机制中的QK矩阵相乘过程。在Transformer模型中,输入文本通过向量化和位置编码转换成数值矩阵,然后通过注意力机制放大语义关系。注意力机制的核心是QKV(Query, Key, Value)的计算,其中Q代表查询信息,K代表被查询的索引,V代表实际的内容信息。
+多头注意力机制通过QK矩阵相乘放大了输入文本中词与词之间的语义关系,使得模型能够更好地捕捉文本的上下文信息,从而提高了模型对语言的理解能力。