diff --git a/人人都能看懂的Transformer/第五章——多头注意力机制——全流程.md b/人人都能看懂的Transformer/第五章——多头注意力机制——全流程.md index ba1f724..04f1f1d 100644 --- a/人人都能看懂的Transformer/第五章——多头注意力机制——全流程.md +++ b/人人都能看懂的Transformer/第五章——多头注意力机制——全流程.md @@ -149,7 +149,7 @@ Wq、Wk、Wv、Wo这4个矩阵的值都是不一样的,每个头(以及每 $$ ((4*768)+(1*50257*768))*175 = 6,755,078,400 $$ -上面单单是子模块就有67亿的参数量了,还没包括前馈神经网络的部分(后面会详解),神经网络里也有W权重等需要保存。很容易就到数十亿甚至数百亿。 +上面单单是子模块就有67亿的参数量了,还没包括前馈神经网络的部分(后面会详解),神经网络以及LayerNorm等也有需要保存的参数。很容易就到数十亿甚至数百亿。