@ -87,4 +87,8 @@ $$
### 总结
在Transformer模型的最后阶段,Linear层负责将前一层的输出通过线性变换映射到与词汇表大小相同的空间,为文本生成做准备。GPT中,这一层的权重与词嵌入共享。接着,Softmax层将Linear层的输出转换为概率分布,为每个词分配一个概率值,以便选择下一个最可能的词。在训练阶段,模型通过比较预测和真实标签来学习,使用损失函数进行优化。而在推理阶段,模型停止学习,使用已训练好的参数来生成文本,可以采用不同的解码策略来输出最终结果。这两个层是文本生成模型的关键组成部分,确保了输出的连贯性和准确性。
现在,你已经是懂原理、看过论文还看过GPT源码的人了。恭喜你🎉🎉🎉