如果训练阶段我们的总文本词汇是3个。预测阶段输入"LLM with me",那么对于"LLM with me"中的每个标记,线性层将输出一个长度为3的向量。如果训练阶段的总文本词汇是10,000个,那么输出的则是10,000的向量(可以理解为概率)。预测下一个字,就是找出向量矩阵中概率最高的对应的文字。如"LLM with me"的下一个词的概率,一般展示如下:
如果训练阶段我们的总文本词汇是3个,最终会训练成3个词的向量队列。预测阶段输入"LLM with me",那么对于"LLM with me"中的每个标记,线性层将输出一个长度为3的向量。如果训练阶段的总文本词汇是10,000个,最终会训练成10,000个词的向量队列,那么输出的则是10,000的向量(可以理解为概率)。预测下一个字,就是找出向量矩阵中概率最高的对应的文字。如"LLM with me"的下一个词的概率,一般展示如下: