diff --git a/人人都能看懂的Transformer/._第五章——多头注意力机制——全流程.md b/人人都能看懂的Transformer/._第五章——多头注意力机制——全流程.md
new file mode 100644
index 0000000..389afdb
Binary files /dev/null and b/人人都能看懂的Transformer/._第五章——多头注意力机制——全流程.md differ
diff --git a/人人都能看懂的Transformer/README.md b/人人都能看懂的Transformer/README.md
index 7b73560..aacae48 100644
--- a/人人都能看懂的Transformer/README.md
+++ b/人人都能看懂的Transformer/README.md
@@ -2,7 +2,7 @@
深度解析Transformer(大模型场景),提供图、代码等,力求每个人都能吃透它。
-有疑惑的地方欢迎issue或邮件我,😀Enjoin!
+有疑惑的地方欢迎issue或邮件我,😀Enjoy!
[Attention Is All You Need 论文地址](https://arxiv.org/pdf/1706.03762)
diff --git a/人人都能看懂的Transformer/第一章——Transformer网络架构.md b/人人都能看懂的Transformer/第一章——Transformer网络架构.md
index eb52fc9..87e62ec 100644
--- a/人人都能看懂的Transformer/第一章——Transformer网络架构.md
+++ b/人人都能看懂的Transformer/第一章——Transformer网络架构.md
@@ -70,7 +70,7 @@
-> 这里用英文的输入,引文英文输入使用代码更容易理解
+> 这里用英文的输入,因为英文输入使用代码更容易理解
如样本“LLM with me”(大模型和我),通过GPT2Tokenizer转换成索引[3069, 44, 351, 502],转成向量后再结合位置信息编码,如[1,2,3]。继续向上传递。
@@ -88,7 +88,7 @@
-向量传入后,通过语义关系学习(一系列计算,点积/内积的方法),得出一个矩阵,维度是4 × 4的矩阵。矩阵里的每个值都是数字,数字代表了文字对应其它文字的关注程度,越高表示与其它文字的关注度越高(关系越近),反正则越小(关系越远)。
+向量传入后,通过语义关系学习(一系列计算,点积/内积的方法),得出一个矩阵,维度是4 × 4的矩阵。矩阵里的每个值都是数字,数字代表了文字对应其它文字的关注程度,越高表示与其它文字的关注度越高(关系越近),反之则越小(关系越远)。
> 为什么数字越大表示关系越近,现在可以简单理解,就是每个词的查询向量(Q)会与序列中所有单词的键(K)向量进行点积运算,得到一个分数,这个分数经过softmax函数处理后,就变成了注意力权重。即每个词都有跟全部词的向量结果,越大表示语义关系越紧密,权重越低则表示关系越疏远。
>
@@ -128,7 +128,7 @@ Add & Norm的过程可以理解为相同位置元素相加,再做层归一化
-当数据输入到神经网络后,经过一系列运算(点积),输出的数据一般是非线形的。而且维度输出的维度与输入的维度是不变的。这种设计允许FFN在不改变输入和输出维度的情况下,增加网络的非线性和复杂性,从而使模型能够学习更加复杂的特征表示。
+当数据输入到神经网络后,经过一系列运算(点积),输出的数据一般是非线性的。而且维度输出的维度与输入的维度是不变的。这种设计允许FFN在不改变输入和输出维度的情况下,增加网络的非线性和复杂性,从而使模型能够学习更加复杂的特征表示。
@@ -171,7 +171,7 @@ Add & Norm的过程可以理解为相同位置元素相加,再做层归一化
-可以简单理解为,将前面线形层输出的值,转化成0-1区间的概率分布,进行输出。
+可以简单理解为,将前面线性层输出的值,转化成0-1区间的概率分布,进行输出。
diff --git a/人人都能看懂的Transformer/第七章——前馈神经网络.md b/人人都能看懂的Transformer/第七章——前馈神经网络.md
index a0b7627..11be703 100644
--- a/人人都能看懂的Transformer/第七章——前馈神经网络.md
+++ b/人人都能看懂的Transformer/第七章——前馈神经网络.md
@@ -37,7 +37,7 @@ def mlp(x, scope, n_state, *, hparams):
### 神经网络demo
-我们来手动推一个简单的神经网络并更新权重,用一个单层神经网络做例子。这个网络将只有一个输入、一个输出和一个权重(没有偏值项b)。我们将使用均方误差作为损失函数,并通过梯度下降来更新权重。
+我们来手动推一个简单的神经网络并更新权重,用一个单层神经网络做例子。这个网络将只有一个输入、一个输出和一个权重(没有偏置项b)。我们将使用均方误差作为损失函数,并通过梯度下降来更新权重。
~~~markdown
输入 (x) 输出 (y)
diff --git a/人人都能看懂的Transformer/第五章——多头注意力机制——全流程.md b/人人都能看懂的Transformer/第五章——多头注意力机制——全流程.md
index 8c33792..db93c68 100644
--- a/人人都能看懂的Transformer/第五章——多头注意力机制——全流程.md
+++ b/人人都能看懂的Transformer/第五章——多头注意力机制——全流程.md
@@ -50,7 +50,7 @@ $$
### Softmax归一化
-将上面的值转成0到1直接的值,即百分比的概率分布。它会放大分数较高的元素,并抑制分数较低的元素。在注意力机制中,这意味着模型可以更加集中地关注那些与当前查询(Query)最相关的键(Key),从而获取对应的值(Value)。
+将上面的值转成0到1之间的值,即百分比的概率分布。它会放大分数较高的元素,并抑制分数较低的元素。在注意力机制中,这意味着模型可以更加集中地关注那些与当前查询(Query)最相关的键(Key),从而获取对应的值(Value)。
diff --git a/人人都能看懂的Transformer/第六章——数值缩放.md b/人人都能看懂的Transformer/第六章——数值缩放.md
index 1f802c8..38ae68c 100644
--- a/人人都能看懂的Transformer/第六章——数值缩放.md
+++ b/人人都能看懂的Transformer/第六章——数值缩放.md
@@ -44,7 +44,7 @@ print(residual_output)
残差连接很像人,从心理学上讲,每个人都有对成功的路径依赖。比如说你上次是通过努力背公式,让你考试拿了高分,那你下次考试前,还会努力背公式。亦或者是你发现运动过程中,边运动边听音乐能帮忙你运动更长时间,你下次运动的时候还是会边听音乐边运动。
-经过两者的相加后,大值之间相加就有可能超过1,小值相加就有可能小与-1,这时候就需要进行一次缩放。
+经过两者的相加后,大值之间相加就有可能超过1,小值相加就有可能小于-1,这时候就需要进行一次缩放。
diff --git a/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md b/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md
index 36dfae5..aa8c785 100644
--- a/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md
+++ b/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md
@@ -16,7 +16,7 @@
>
> Scale:缩放层。缩放操作通常用于调整矩阵乘法的结果。在计算注意力分数之前,会将查询和键的矩阵乘法结果除以一个缩放因子,通常是键向量维度的平方根。这样做是为了防止在进行softmax操作之前,注意力分数过大导致梯度消失问题。
>
-> Softmax:软最大值。oftmax用于将注意力分数(经过缩放的矩阵乘法结果)转换为概率值,这些概率值表示每个头在给定输入时应该关注的程度。
+> Softmax:软最大值。softmax用于将注意力分数(经过缩放的矩阵乘法结果)转换为概率值,这些概率值表示每个头在给定输入时应该关注的程度。
>
> 另外,上面的A,有的文章会写成Z,两者是一样的。
diff --git a/人人都能看懂的Transformer/训练和推理的区别(选修).md b/人人都能看懂的Transformer/训练和推理的区别(选修).md
index 7609d64..6e9b5d7 100644
--- a/人人都能看懂的Transformer/训练和推理的区别(选修).md
+++ b/人人都能看懂的Transformer/训练和推理的区别(选修).md
@@ -25,7 +25,7 @@
#### 损失函数
- 训练阶段:会有损失函数,且每个层都会多次循环,以进行更新各种W等参数
-- 推理阶段:不会运行损失函数,每个层都是固定的,且里面的W等参数不会改成,即训练完成后都不会有变化了。
+- 推理阶段:不会运行损失函数,每个层都是固定的,且里面的W等参数不会改变,即训练完成后都不会有变化了。