diff --git a/人人都能看懂的Transformer/第八章——最后的输出.md b/人人都能看懂的Transformer/第八章——最后的输出.md new file mode 100644 index 0000000..38123d1 --- /dev/null +++ b/人人都能看懂的Transformer/第八章——最后的输出.md @@ -0,0 +1,12 @@ +### 第八章——最后的输出 + +image-20240503172501503 + +### 前言 + +FFNN前馈神经网络输出结果后,经过数值缩放,来到了这里。终于来到模块的最后了!Linear跟Softmax要讲的内容不多,我们放在一起,一次性过完。数值缩放由于是一样的,所以我们之间跳过了。 + + + +### Linear层 +