From 2fb6c2b66963bb2876529147d4494b12b99a4dd5 Mon Sep 17 00:00:00 2001 From: "ben.guo" <909336740@qq.com> Date: Fri, 3 May 2024 13:43:34 +0800 Subject: [PATCH] =?UTF-8?q?Fix.=20=E4=BF=AE=E6=AD=A3=E4=B8=80=E4=BA=9B?= =?UTF-8?q?=E8=AF=B4=E6=B3=95?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- .../第四章——多头注意力机制——QK矩阵相乘.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md b/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md index 4bbf8e1..a8ad718 100644 --- a/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md +++ b/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md @@ -139,7 +139,7 @@ $$ ### QKV多头机制 -上面我们看到单个头的是[4, 16, 768],前面我们也一直提到QKV的多头机制,如果按照GPT里的12头(Transformer原文是4头),那么会这么切分,如下图: +上面我们看到单个头的是[4, 16, 768],前面我们也一直提到QKV的多头机制,如果按照GPT里的12头(Transformer原文中并没有规定是多少头),那么会这么切分,如下图: image-20240502134443646