From ed35b14d59a3debdd61c8a2523400cd55e77656a Mon Sep 17 00:00:00 2001
From: "ben.guo" <909336740@qq.com>
Date: Fri, 3 May 2024 14:50:41 +0800
Subject: [PATCH] =?UTF-8?q?Add.=20=E6=80=BB=E7=BB=93?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 ...第五章——多头注意力机制——全流程.md | 8 +++++++-
 1 file changed, 7 insertions(+), 1 deletion(-)

diff --git a/人人都能看懂的Transformer/第五章——多头注意力机制——全流程.md b/人人都能看懂的Transformer/第五章——多头注意力机制——全流程.md
index de47be0..09572bc 100644
--- a/人人都能看懂的Transformer/第五章——多头注意力机制——全流程.md
+++ b/人人都能看懂的Transformer/第五章——多头注意力机制——全流程.md
@@ -149,4 +149,10 @@ Wq、Wk、Wv、Wo这4个矩阵的值都是不一样的，每个头（以及每
 $$
 ((4*768)+(1*50257*768))*175 = 6,755,078,400
 $$
-上面单单是子模块就有67亿的参数量了，还没包括前馈神经网络的部分（后面会详解），神经网络里也有W权重等需要保存。
+上面单单是子模块就有67亿的参数量了，还没包括前馈神经网络的部分（后面会详解），神经网络里也有W权重等需要保存。很容易就到数十亿甚至数百亿。
+
+
+
+### 总结
+
+多头注意力机制通过Q、K、V矩阵的转换和相互作用，实现了对输入序列的并行关注。QK矩阵相乘后，通过缩放、Mask遮挡和Softmax归一化处理，得到注意力权重。这些权重与V矩阵相乘，生成加权的输出表示。多个头的输出被合并，并通过权重矩阵Wo得到最终结果。在大型模型如GPT-3中，这个过程在多个层中重复，每层都有独特的权重矩阵，导致模型的参数量达到数十亿。这些参数在训练过程中不断调整，以优化模型的性能。