Add. 补充说明

master
ben.guo 1 year ago
parent ed35b14d59
commit ba5a0f6760

@ -143,7 +143,7 @@ Wq、Wk、Wv、Wo这4个矩阵的值都是不一样的每个头以及每
> WHAT大家平时看到的7B、13B模型就代表着70亿、130亿的模型参数的模型。 > WHAT大家平时看到的7B、13B模型就代表着70亿、130亿的模型参数的模型。
继续上文。也就是说每个子模块有4个WWq、Wk、Wv、Wo每个768以及一开始输入的X也会随之改变X是词向量前面我们GPT-2输出的是50257维度是768且GPT-3据说有175层Block 继续上文。也就是说每个子模块有4个WWq、Wk、Wv、Wo每个768以及一开始输入的X也会随之改变X是词向量前面我们GPT-2输出的是50257维度是768且GPT-3据说有175层Block**当训练完成后4个W权重跟向量X都会固定下来。**
公式为: 公式为:
$$ $$

Loading…
Cancel
Save