diff --git a/人人都能看懂的Transformer/第八章——最后的输出.md b/人人都能看懂的Transformer/第八章——最后的输出.md index 5d4c03c..313d958 100644 --- a/人人都能看懂的Transformer/第八章——最后的输出.md +++ b/人人都能看懂的Transformer/第八章——最后的输出.md @@ -85,3 +85,6 @@ $$ +### 总结 + +在Transformer模型的最后阶段,Linear层负责将前一层的输出通过线性变换映射到与词汇表大小相同的空间,为文本生成做准备。GPT中,这一层的权重与词嵌入共享。接着,Softmax层将Linear层的输出转换为概率分布,为每个词分配一个概率值,以便选择下一个最可能的词。在训练阶段,模型通过比较预测和真实标签来学习,使用损失函数进行优化。而在推理阶段,模型停止学习,使用已训练好的参数来生成文本,可以采用不同的解码策略来输出最终结果。这两个层是文本生成模型的关键组成部分,确保了输出的连贯性和准确性。 \ No newline at end of file