From 7f0d4c60fb478147b39d584315606d2ebdd6f2c2 Mon Sep 17 00:00:00 2001
From: "ben.guo" <909336740@qq.com>
Date: Fri, 3 May 2024 16:20:38 +0800
Subject: [PATCH] =?UTF-8?q?Fix.=20=E5=A2=9E=E5=8A=A0=E6=8F=8F=E8=BF=B0?=
 =?UTF-8?q?=E7=9A=84=E6=96=87=E5=AD=97?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 .../第五章——多头注意力机制——全流程.md      | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/人人都能看懂的Transformer/第五章——多头注意力机制——全流程.md b/人人都能看懂的Transformer/第五章——多头注意力机制——全流程.md
index ba1f724..04f1f1d 100644
--- a/人人都能看懂的Transformer/第五章——多头注意力机制——全流程.md
+++ b/人人都能看懂的Transformer/第五章——多头注意力机制——全流程.md
@@ -149,7 +149,7 @@ Wq、Wk、Wv、Wo这4个矩阵的值都是不一样的，每个头（以及每
 $$
 ((4*768)+(1*50257*768))*175 = 6,755,078,400
 $$
-上面单单是子模块就有67亿的参数量了，还没包括前馈神经网络的部分（后面会详解），神经网络里也有W权重等需要保存。很容易就到数十亿甚至数百亿。
+上面单单是子模块就有67亿的参数量了，还没包括前馈神经网络的部分（后面会详解），神经网络以及LayerNorm等也有需要保存的参数。很容易就到数十亿甚至数百亿。