Add. 补充说明

1 year ago · ba5a0f6760
parent ed35b14d59
commit ba5a0f6760
1 changed files with 1 additions and 1 deletions
--- a/人人都能看懂的Transformer/第五章——多头注意力机制——全流程.md
+++ b/人人都能看懂的Transformer/第五章——多头注意力机制——全流程.md
@ -143,7 +143,7 @@ Wq、Wk、Wv、Wo这4个矩阵的值都是不一样的，每个头（以及每
 > WHAT：大家平时看到的7B、13B模型就代表着70亿、130亿的模型参数的模型。
-继续上文。也就是说，每个子模块有4个W（Wq、Wk、Wv、Wo）每个768，以及一开始输入的X也会随之改变（X是词向量，前面我们GPT-2输出的是50257，维度是768），且GPT-3据说有175层（Block）。
+继续上文。也就是说，每个子模块有4个W（Wq、Wk、Wv、Wo）每个768，以及一开始输入的X也会随之改变（X是词向量，前面我们GPT-2输出的是50257，维度是768），且GPT-3据说有175层（Block）。**当训练完成后，4个W权重跟向量X都会固定下来。**
 公式为：
 $$