From 8debed4f86b3d230917c63de34a89785479c6892 Mon Sep 17 00:00:00 2001 From: "ben.guo" <909336740@qq.com> Date: Fri, 3 May 2024 23:13:41 +0800 Subject: [PATCH] =?UTF-8?q?Update.=20=E8=B0=83=E6=95=B4=E8=A1=A8=E8=BE=BE?= =?UTF-8?q?=E8=AF=AD=E4=B9=89?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- .../第七章——前馈神经网络.md | 8 ++++---- 1 file changed, 4 insertions(+), 4 deletions(-) diff --git a/人人都能看懂的Transformer/第七章——前馈神经网络.md b/人人都能看懂的Transformer/第七章——前馈神经网络.md index 55d32e4..149198e 100644 --- a/人人都能看懂的Transformer/第七章——前馈神经网络.md +++ b/人人都能看懂的Transformer/第七章——前馈神经网络.md @@ -31,7 +31,7 @@ def mlp(x, scope, n_state, *, hparams): 可以看到上面是非常简单的两层线性变换,而且没有其它隐藏层。 -FFNN 在 Transformer 中的作用是为了引入非线性并增加模型的表达能力。多头注意力机制虽然能够捕捉输入序列中的长距离依赖关系,但它本身是一个线性操作。FFNN 通过在注意力机制之后添加非线性变换,使得模型能够学习更复杂的特征表示。 +前馈神经网络(FFNN) 在 Transformer 中的作用是为了引入非线性并增加模型的表达能力。多头注意力机制虽然能够捕捉输入序列中的长距离依赖关系,但它本身是一个线性操作。FFNN 通过在注意力机制之后添加非线性变换,使得模型能够学习更复杂的特征表示。 @@ -46,9 +46,9 @@ FFNN 在 Transformer 中的作用是为了引入非线性并增加模型的表 3 6 ~~~ -我们的目标是训练一个模型来预测输出`y`,给定输入`x`。我们的模型是一个线性模型:`y_pred = w * x`。 +我们的目标是训练一个模型来预测输出`y`,给定输入`x`。我们的模型是一个简单的单变量线性回归模型:`y_pred = w * x`。 -初始化权重 `w` 为 0.5,学习率 `lr` 为 0.01。我们将手动进行3次迭代的权重更新。 +初始化权重 `w` 为 0.5,学习率 `lr` 为 0.01。我们将通过编写代码模拟进行3次迭代的权重更新。 #### 迭代 1: @@ -148,5 +148,5 @@ FFNN 在 Transformer 中的作用是为了引入非线性并增加模型的表 ### 总结 -在GPT-2中,前馈神经网络(FFNN)由两层线性变换组成,其中间插入了GELU激活函数以引入非线性。FFNN在Transformer架构中紧随多头注意力层之后,其目的是增强模型的表达能力,使其能够捕捉更复杂的特征表示。通过手动迭代一个简单的单层神经网络示例,我们展示了权重更新的基本过程:前向传播计算预测值,计算损失函数,通过反向传播求梯度,最后使用梯度下降法更新权重。这个过程在多次迭代中重复,目标是最小化损失函数,从而训练出能够准确预测输出的模型。虽然这是一个简化的例子,但它揭示了深度学习模型训练的核心机制。 +在GPT-2中,前馈神经网络由两层线性变换组成,第一层线性变换后应用了GELU激活函数以引入非线性。FFNN在Transformer架构中紧随多头注意力层之后,其目的是增强模型的表达能力,使其能够捕捉更复杂的特征表示。通过手动迭代一个简单的单层神经网络示例,我们展示了权重更新的基本过程:前向传播计算预测值,计算损失函数,通过反向传播求梯度,最后使用梯度下降法更新权重。这个过程在多次迭代中重复,目标是最小化损失函数,从而训练出能够更准确地预测输出的模型。虽然这是一个简化的例子,但它揭示了深度学习模型训练的核心机制。