diff --git a/人人都能看懂的Transformer/第八章——最后的输出.md b/人人都能看懂的Transformer/第八章——最后的输出.md index 949f89d..1e6cecd 100644 --- a/人人都能看懂的Transformer/第八章——最后的输出.md +++ b/人人都能看懂的Transformer/第八章——最后的输出.md @@ -69,6 +69,14 @@ Output Y: [-2.59709604 -0.78316274 -4.6765379 3.25016417] Softmax层是一个激活函数,它将线性层的输出转换为一个概率分布。每个元素的值介于0和1之间,并且所有元素的和为1。这使得模型能够为每个可能的输出词汇生成一个概率。 生成概率分布:为了从模型中得到一个实际的输出序列,需要将模型的输出转换为一个概率分布,这样就可以选择概率最高的词作为预测结果。 + +GitHub展示: + +$`\text{softmax}(z)_i = \frac{e^{z_i}}{\sum_{j=1}^{n} e^{z_j}} +\\ +其中,\text{softmax}(z)_i 是向量 z中第i个元素的softmax值,\\ e是自然对数的底,n是向量z的长度,\sum_{j=1}^{n} e^{z_j}是所有元素的指数和。`$ + +markdown展示: $$ \text{softmax}(z)_i = \frac{e^{z_i}}{\sum_{j=1}^{n} e^{z_j}} \\