|
|
@ -143,7 +143,7 @@ Wq、Wk、Wv、Wo这4个矩阵的值都是不一样的,每个头(以及每
|
|
|
|
|
|
|
|
|
|
|
|
> WHAT:大家平时看到的7B、13B模型就代表着70亿、130亿的模型参数的模型。
|
|
|
|
> WHAT:大家平时看到的7B、13B模型就代表着70亿、130亿的模型参数的模型。
|
|
|
|
|
|
|
|
|
|
|
|
继续上文。也就是说,每个子模块有4个W(Wq、Wk、Wv、Wo)每个768,以及一开始输入的X也会随之改变(X是词向量,前面我们GPT-2输出的是50257,维度是768),且GPT-3据说有175层(Block)。
|
|
|
|
继续上文。也就是说,每个子模块有4个W(Wq、Wk、Wv、Wo)每个768,以及一开始输入的X也会随之改变(X是词向量,前面我们GPT-2输出的是50257,维度是768),且GPT-3据说有175层(Block)。**当训练完成后,4个W权重跟向量X都会固定下来。**
|
|
|
|
|
|
|
|
|
|
|
|
公式为:
|
|
|
|
公式为:
|
|
|
|
$$
|
|
|
|
$$
|
|
|
|