From ba5a0f6760dbea925c81002c22f706caf035c23f Mon Sep 17 00:00:00 2001 From: "ben.guo" <909336740@qq.com> Date: Fri, 3 May 2024 14:59:16 +0800 Subject: [PATCH] =?UTF-8?q?Add.=20=E8=A1=A5=E5=85=85=E8=AF=B4=E6=98=8E?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- .../第五章——多头注意力机制——全流程.md | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git a/人人都能看懂的Transformer/第五章——多头注意力机制——全流程.md b/人人都能看懂的Transformer/第五章——多头注意力机制——全流程.md index 09572bc..ba1f724 100644 --- a/人人都能看懂的Transformer/第五章——多头注意力机制——全流程.md +++ b/人人都能看懂的Transformer/第五章——多头注意力机制——全流程.md @@ -143,7 +143,7 @@ Wq、Wk、Wv、Wo这4个矩阵的值都是不一样的,每个头(以及每 > WHAT:大家平时看到的7B、13B模型就代表着70亿、130亿的模型参数的模型。 -继续上文。也就是说,每个子模块有4个W(Wq、Wk、Wv、Wo)每个768,以及一开始输入的X也会随之改变(X是词向量,前面我们GPT-2输出的是50257,维度是768),且GPT-3据说有175层(Block)。 +继续上文。也就是说,每个子模块有4个W(Wq、Wk、Wv、Wo)每个768,以及一开始输入的X也会随之改变(X是词向量,前面我们GPT-2输出的是50257,维度是768),且GPT-3据说有175层(Block)。**当训练完成后,4个W权重跟向量X都会固定下来。** 公式为: $$