Add. 总结

master
ben.guo 1 year ago
parent a3c7f56e73
commit ed35b14d59

@ -149,4 +149,10 @@ Wq、Wk、Wv、Wo这4个矩阵的值都是不一样的每个头以及每
$$
((4*768)+(1*50257*768))*175 = 6,755,078,400
$$
上面单单是子模块就有67亿的参数量了还没包括前馈神经网络的部分后面会详解神经网络里也有W权重等需要保存。
上面单单是子模块就有67亿的参数量了还没包括前馈神经网络的部分后面会详解神经网络里也有W权重等需要保存。很容易就到数十亿甚至数百亿。
### 总结
多头注意力机制通过Q、K、V矩阵的转换和相互作用实现了对输入序列的并行关注。QK矩阵相乘后通过缩放、Mask遮挡和Softmax归一化处理得到注意力权重。这些权重与V矩阵相乘生成加权的输出表示。多个头的输出被合并并通过权重矩阵Wo得到最终结果。在大型模型如GPT-3中这个过程在多个层中重复每层都有独特的权重矩阵导致模型的参数量达到数十亿。这些参数在训练过程中不断调整以优化模型的性能。

Loading…
Cancel
Save