@ -71,6 +71,8 @@
如样本“LLM with me”(大模型和我),通过GPT2Tokenizer转换成索引[3069, 44, 351, 502],转成向量后再结合位置信息编码,如[1,2,3]。继续向上传递。
> 你可能好奇,为什么LLM with me明明是3个词会有4个索引,后面会详细解答,并提供代码。另外位置编码不会向1,2,3这么简单的叠加,后面也会详解。
>
> 768是嵌入向量的维度,这是GPT-2模型的一个特定参数。每个嵌入向量的维度是模型设计时确定的,并且在整个模型中保持一致。