diff --git a/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md b/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md
index 4bbf8e1..a8ad718 100644
--- a/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md
+++ b/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md
@@ -139,7 +139,7 @@ $$
 
 ### QKV多头机制
 
-上面我们看到单个头的是[4, 16, 768]，前面我们也一直提到QKV的多头机制，如果按照GPT里的12头（Transformer原文是4头），那么会这么切分，如下图：
+上面我们看到单个头的是[4, 16, 768]，前面我们也一直提到QKV的多头机制，如果按照GPT里的12头（Transformer原文中并没有规定是多少头），那么会这么切分，如下图：
 
 <img src="../assets/image-20240502134443646.png" alt="image-20240502134443646" style="zoom:50%;" />