From 2fb6c2b66963bb2876529147d4494b12b99a4dd5 Mon Sep 17 00:00:00 2001
From: "ben.guo" <909336740@qq.com>
Date: Fri, 3 May 2024 13:43:34 +0800
Subject: [PATCH] =?UTF-8?q?Fix.=20=E4=BF=AE=E6=AD=A3=E4=B8=80=E4=BA=9B?=
 =?UTF-8?q?=E8=AF=B4=E6=B3=95?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 .../第四章——多头注意力机制——QK矩阵相乘.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)
diff --git a/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md b/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md
index 4bbf8e1..a8ad718 100644
--- a/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md
+++ b/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md
@@ -139,7 +139,7 @@ $$
 
 ### QKV多头机制
 
-上面我们看到单个头的是[4, 16, 768]，前面我们也一直提到QKV的多头机制，如果按照GPT里的12头（Transformer原文是4头），那么会这么切分，如下图：
+上面我们看到单个头的是[4, 16, 768]，前面我们也一直提到QKV的多头机制，如果按照GPT里的12头（Transformer原文中并没有规定是多少头），那么会这么切分，如下图：
 
 <img src="../assets/image-20240502134443646.png" alt="image-20240502134443646" style="zoom:50%;" />