Fix. 增加描述的文字

master
ben.guo 1 year ago
parent 652873a266
commit 7f0d4c60fb

@ -149,7 +149,7 @@ Wq、Wk、Wv、Wo这4个矩阵的值都是不一样的每个头以及每
$$
((4*768)+(1*50257*768))*175 = 6,755,078,400
$$
上面单单是子模块就有67亿的参数量了还没包括前馈神经网络的部分后面会详解神经网络里也有W权重等需要保存。很容易就到数十亿甚至数百亿。
上面单单是子模块就有67亿的参数量了还没包括前馈神经网络的部分后面会详解神经网络以及LayerNorm等也有需要保存的参数。很容易就到数十亿甚至数百亿。

Loading…
Cancel
Save