From 3025191ab72bd989af82611316711e66f67bab91 Mon Sep 17 00:00:00 2001 From: "ben.guo" <909336740@qq.com> Date: Thu, 2 May 2024 21:22:55 +0800 Subject: [PATCH] =?UTF-8?q?Update.=20=E4=BF=AE=E6=94=B9=E9=94=99=E8=AF=AF?= =?UTF-8?q?=E5=9B=BE=E5=86=85=E5=AE=B9?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- .../第四章——多头注意力机制——QK矩阵相乘.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md b/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md index a25f9fa..cc0fab4 100644 --- a/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md +++ b/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md @@ -151,7 +151,7 @@ $$ QKV分别获得后,QK则是根据路线进行矩阵相乘,如下图 -image-20240501173316308 +image-20240502212200231 其中我们把K进行了翻转,方便相乘。矩阵相乘则是每个batch_size里的每个头进行矩阵相乘,即[16, 64]和[64, 16]进行矩阵相乘,相乘后则是变成了[16, 16]的矩阵。