From 28de3d785286bdc46a36a8cea34cc8cb4c5b3013 Mon Sep 17 00:00:00 2001 From: "ben.guo" <909336740@qq.com> Date: Mon, 27 May 2024 19:37:55 +0800 Subject: [PATCH] =?UTF-8?q?Add.=20=E5=A2=9E=E5=8A=A0GitHub=E7=9A=84?= =?UTF-8?q?=E5=85=AC=E5=BC=8F=E5=B1=95=E7=A4=BA?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- .../第八章——最后的输出.md | 8 ++++++++ 1 file changed, 8 insertions(+) diff --git a/人人都能看懂的Transformer/第八章——最后的输出.md b/人人都能看懂的Transformer/第八章——最后的输出.md index 949f89d..1e6cecd 100644 --- a/人人都能看懂的Transformer/第八章——最后的输出.md +++ b/人人都能看懂的Transformer/第八章——最后的输出.md @@ -69,6 +69,14 @@ Output Y: [-2.59709604 -0.78316274 -4.6765379 3.25016417] Softmax层是一个激活函数,它将线性层的输出转换为一个概率分布。每个元素的值介于0和1之间,并且所有元素的和为1。这使得模型能够为每个可能的输出词汇生成一个概率。 生成概率分布:为了从模型中得到一个实际的输出序列,需要将模型的输出转换为一个概率分布,这样就可以选择概率最高的词作为预测结果。 + +GitHub展示: + +$`\text{softmax}(z)_i = \frac{e^{z_i}}{\sum_{j=1}^{n} e^{z_j}} +\\ +其中,\text{softmax}(z)_i 是向量 z中第i个元素的softmax值,\\ e是自然对数的底,n是向量z的长度,\sum_{j=1}^{n} e^{z_j}是所有元素的指数和。`$ + +markdown展示: $$ \text{softmax}(z)_i = \frac{e^{z_i}}{\sum_{j=1}^{n} e^{z_j}} \\