Add. 总结

master
ben.guo 6 months ago
parent 1b8e025626
commit ddf28b253b

@ -85,3 +85,6 @@ $$
### 总结
在Transformer模型的最后阶段Linear层负责将前一层的输出通过线性变换映射到与词汇表大小相同的空间为文本生成做准备。GPT中这一层的权重与词嵌入共享。接着Softmax层将Linear层的输出转换为概率分布为每个词分配一个概率值以便选择下一个最可能的词。在训练阶段模型通过比较预测和真实标签来学习使用损失函数进行优化。而在推理阶段模型停止学习使用已训练好的参数来生成文本可以采用不同的解码策略来输出最终结果。这两个层是文本生成模型的关键组成部分确保了输出的连贯性和准确性。
Loading…
Cancel
Save