From 3025191ab72bd989af82611316711e66f67bab91 Mon Sep 17 00:00:00 2001
From: "ben.guo" <909336740@qq.com>
Date: Thu, 2 May 2024 21:22:55 +0800
Subject: [PATCH] =?UTF-8?q?Update.=20=E4=BF=AE=E6=94=B9=E9=94=99=E8=AF=AF?=
=?UTF-8?q?=E5=9B=BE=E5=86=85=E5=AE=B9?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit
---
.../第四章——多头注意力机制——QK矩阵相乘.md | 2 +-
1 file changed, 1 insertion(+), 1 deletion(-)
diff --git a/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md b/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md
index a25f9fa..cc0fab4 100644
--- a/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md
+++ b/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md
@@ -151,7 +151,7 @@ $$
QKV分别获得后,QK则是根据路线进行矩阵相乘,如下图
-
+
其中我们把K进行了翻转,方便相乘。矩阵相乘则是每个batch_size里的每个头进行矩阵相乘,即[16, 64]和[64, 16]进行矩阵相乘,相乘后则是变成了[16, 16]的矩阵。