From aa7028e5ffadd7998b387390342f832f84d0a0c4 Mon Sep 17 00:00:00 2001
From: "ben.guo" <909336740@qq.com>
Date: Thu, 25 Apr 2024 11:09:47 +0800
Subject: [PATCH] =?UTF-8?q?fix.=20=E4=BF=AE=E6=94=B9=E9=94=99=E5=88=AB?=
 =?UTF-8?q?=E5=AD=97?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 .../第一章——Transformer网络架构.md               | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)
diff --git a/人人都能看懂的Transformer/第一章——Transformer网络架构.md b/人人都能看懂的Transformer/第一章——Transformer网络架构.md
index 9ab2ed3..ac87ed9 100644
--- a/人人都能看懂的Transformer/第一章——Transformer网络架构.md
+++ b/人人都能看懂的Transformer/第一章——Transformer网络架构.md
@@ -6,7 +6,7 @@
 
 <img src="../assets/image-20240421134206905.png" alt="总体架构图" style="zoom:50%;" />
 
-> WHAT：自注意力机制模型，顾名思义，它能够自己找到不同位置的依赖关系。如在序列的任何位置直接计算出其他位置的依赖关系，从而有效捕捉长距离依赖。以及位置编码等关键组成。
+> WHAT：自注意力机制模型，顾名思义，它能够自己找到不同位置的依赖关系。如在序列的任何位置直接计算出 与 其他位置的依赖关系，从而有效捕捉长距离依赖。以及位置编码等关键组成。
 >
 > WHY：相比前一代主流的RNN/LSTM，它可以并行化（意味着它能够提供非常好的用户体验，逐渐能够走向大众视野）。能较好处理长距离依赖。效果上也是当时多个任务上的最佳性能。
 
@@ -48,9 +48,9 @@
 
 <img src="../assets/image-20240421161038387.png" alt="汉化decoder" style="zoom:50%;" />
 
-通过上面的英文转中文，大家应该也能理解大致意思，也就是文字会向量化 加上 位置信息编码，输入到多头注意力机制里，去学习语义关系，通过数值缩放再到神经网络层。数值缩放后被线性映射，最后输出成百分比概率。
+通过上面的英文转中文，大家应该也能理解大致意思，也就是文字会向量化 加上 位置信息编码，输入到多头注意力机制里，去学习语义关系，通过数值缩放再到神经网络层。数值缩放后被线性映射，最后输出成百分比概率，概率越大的就越可能是最终预测输出的文字。
 
-其中左侧的线（非主线），则是残差连接（借鉴Resent）。残差连接用以解决梯度消失/爆炸，和保留原始信息；
+其中左侧的线（非主线），则是残差连接（借鉴Resnet）。残差连接用以解决梯度消失/爆炸，和保留原始信息；
 
 下面我们以简单讲述，来走一遍全部流程，后续章节再进行更深入的讲解。