diff --git a/人人都能看懂的Transformer/._第五章——多头注意力机制——全流程.md b/人人都能看懂的Transformer/._第五章——多头注意力机制——全流程.md
new file mode 100644
index 0000000..389afdb
Binary files /dev/null and b/人人都能看懂的Transformer/._第五章——多头注意力机制——全流程.md differ
diff --git a/人人都能看懂的Transformer/README.md b/人人都能看懂的Transformer/README.md
index 7b73560..aacae48 100644
--- a/人人都能看懂的Transformer/README.md
+++ b/人人都能看懂的Transformer/README.md
@@ -2,7 +2,7 @@
 
 深度解析Transformer（大模型场景），提供图、代码等，力求每个人都能吃透它。
 
-有疑惑的地方欢迎issue或邮件我，😀Enjoin！
+有疑惑的地方欢迎issue或邮件我，😀Enjoy！
 
 [Attention Is All You Need 论文地址](https://arxiv.org/pdf/1706.03762)
 
diff --git a/人人都能看懂的Transformer/第一章——Transformer网络架构.md b/人人都能看懂的Transformer/第一章——Transformer网络架构.md
index eb52fc9..87e62ec 100644
--- a/人人都能看懂的Transformer/第一章——Transformer网络架构.md
+++ b/人人都能看懂的Transformer/第一章——Transformer网络架构.md
@@ -70,7 +70,7 @@
 
 <img src="../assets/image-20240421205946626.png" alt="文字向量化" width="550" />
 
-> 这里用英文的输入，引文英文输入使用代码更容易理解
+> 这里用英文的输入，因为英文输入使用代码更容易理解
 
 如样本“LLM with me”（大模型和我），通过GPT2Tokenizer转换成索引[3069, 44, 351, 502]，转成向量后再结合位置信息编码，如[1,2,3]。继续向上传递。
 
@@ -88,7 +88,7 @@
 
 <img src="../assets/image-20240421212923027.png" alt="语义关系学习" width="550" />
 
-向量传入后，通过语义关系学习（一系列计算，点积/内积的方法），得出一个矩阵，维度是4 × 4的矩阵。矩阵里的每个值都是数字，数字代表了文字对应其它文字的关注程度，越高表示与其它文字的关注度越高（关系越近），反正则越小（关系越远）。
+向量传入后，通过语义关系学习（一系列计算，点积/内积的方法），得出一个矩阵，维度是4 × 4的矩阵。矩阵里的每个值都是数字，数字代表了文字对应其它文字的关注程度，越高表示与其它文字的关注度越高（关系越近），反之则越小（关系越远）。
 
 > 为什么数字越大表示关系越近，现在可以简单理解，就是每个词的查询向量（Q）会与序列中所有单词的键（K）向量进行点积运算，得到一个分数，这个分数经过softmax函数处理后，就变成了注意力权重。即每个词都有跟全部词的向量结果，越大表示语义关系越紧密，权重越低则表示关系越疏远。
 >
@@ -128,7 +128,7 @@ Add & Norm的过程可以理解为相同位置元素相加，再做层归一化
 
 <img src="../assets/image-20240424204837275.png" alt="前馈神经网络" width="550" />
 
-当数据输入到神经网络后，经过一系列运算（点积），输出的数据一般是非线形的。而且维度输出的维度与输入的维度是不变的。这种设计允许FFN在不改变输入和输出维度的情况下，增加网络的非线性和复杂性，从而使模型能够学习更加复杂的特征表示。
+当数据输入到神经网络后，经过一系列运算（点积），输出的数据一般是非线性的。而且维度输出的维度与输入的维度是不变的。这种设计允许FFN在不改变输入和输出维度的情况下，增加网络的非线性和复杂性，从而使模型能够学习更加复杂的特征表示。
 
 
 
@@ -171,7 +171,7 @@ Add & Norm的过程可以理解为相同位置元素相加，再做层归一化
 
 <img src="../assets/image-20240503172341945.png" alt="image-20240503172341945" width="300" />
 
-可以简单理解为，将前面线形层输出的值，转化成0-1区间的概率分布，进行输出。
+可以简单理解为，将前面线性层输出的值，转化成0-1区间的概率分布，进行输出。
 
 
 
diff --git a/人人都能看懂的Transformer/第七章——前馈神经网络.md b/人人都能看懂的Transformer/第七章——前馈神经网络.md
index a0b7627..11be703 100644
--- a/人人都能看懂的Transformer/第七章——前馈神经网络.md
+++ b/人人都能看懂的Transformer/第七章——前馈神经网络.md
@@ -37,7 +37,7 @@ def mlp(x, scope, n_state, *, hparams):
 
 ### 神经网络demo
 
-我们来手动推一个简单的神经网络并更新权重，用一个单层神经网络做例子。这个网络将只有一个输入、一个输出和一个权重（没有偏值项b）。我们将使用均方误差作为损失函数，并通过梯度下降来更新权重。
+我们来手动推一个简单的神经网络并更新权重，用一个单层神经网络做例子。这个网络将只有一个输入、一个输出和一个权重（没有偏置项b）。我们将使用均方误差作为损失函数，并通过梯度下降来更新权重。
 
 ~~~markdown
 输入 (x)  输出 (y)
diff --git a/人人都能看懂的Transformer/第五章——多头注意力机制——全流程.md b/人人都能看懂的Transformer/第五章——多头注意力机制——全流程.md
index 8c33792..db93c68 100644
--- a/人人都能看懂的Transformer/第五章——多头注意力机制——全流程.md
+++ b/人人都能看懂的Transformer/第五章——多头注意力机制——全流程.md
@@ -50,7 +50,7 @@ $$
 
 ### Softmax归一化
 
-将上面的值转成0到1直接的值，即百分比的概率分布。它会放大分数较高的元素，并抑制分数较低的元素。在注意力机制中，这意味着模型可以更加集中地关注那些与当前查询（Query）最相关的键（Key），从而获取对应的值（Value）。
+将上面的值转成0到1之间的值，即百分比的概率分布。它会放大分数较高的元素，并抑制分数较低的元素。在注意力机制中，这意味着模型可以更加集中地关注那些与当前查询（Query）最相关的键（Key），从而获取对应的值（Value）。
 
 <img src="../assets/image-20240502212834597.png" alt="image-20240502212834597" width="550" />
 
diff --git a/人人都能看懂的Transformer/第六章——数值缩放.md b/人人都能看懂的Transformer/第六章——数值缩放.md
index 1f802c8..38ae68c 100644
--- a/人人都能看懂的Transformer/第六章——数值缩放.md
+++ b/人人都能看懂的Transformer/第六章——数值缩放.md
@@ -44,7 +44,7 @@ print(residual_output)
 
 残差连接很像人，从心理学上讲，每个人都有对成功的路径依赖。比如说你上次是通过努力背公式，让你考试拿了高分，那你下次考试前，还会努力背公式。亦或者是你发现运动过程中，边运动边听音乐能帮忙你运动更长时间，你下次运动的时候还是会边听音乐边运动。
 
-经过两者的相加后，大值之间相加就有可能超过1，小值相加就有可能小与-1，这时候就需要进行一次缩放。
+经过两者的相加后，大值之间相加就有可能超过1，小值相加就有可能小于-1，这时候就需要进行一次缩放。
 
 
 
diff --git a/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md b/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md
index 36dfae5..aa8c785 100644
--- a/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md
+++ b/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md
@@ -16,7 +16,7 @@
 >
 > Scale：缩放层。缩放操作通常用于调整矩阵乘法的结果。在计算注意力分数之前，会将查询和键的矩阵乘法结果除以一个缩放因子，通常是键向量维度的平方根。这样做是为了防止在进行softmax操作之前，注意力分数过大导致梯度消失问题。
 >
-> Softmax：软最大值。oftmax用于将注意力分数（经过缩放的矩阵乘法结果）转换为概率值，这些概率值表示每个头在给定输入时应该关注的程度。
+> Softmax：软最大值。softmax用于将注意力分数（经过缩放的矩阵乘法结果）转换为概率值，这些概率值表示每个头在给定输入时应该关注的程度。
 >
 > 另外，上面的A，有的文章会写成Z，两者是一样的。
 
diff --git a/人人都能看懂的Transformer/训练和推理的区别（选修）.md b/人人都能看懂的Transformer/训练和推理的区别（选修）.md
index 7609d64..6e9b5d7 100644
--- a/人人都能看懂的Transformer/训练和推理的区别（选修）.md
+++ b/人人都能看懂的Transformer/训练和推理的区别（选修）.md
@@ -25,7 +25,7 @@
 #### 损失函数
 
 - 训练阶段：会有损失函数，且每个层都会多次循环，以进行更新各种W等参数
-- 推理阶段：不会运行损失函数，每个层都是固定的，且里面的W等参数不会改成，即训练完成后都不会有变化了。
+- 推理阶段：不会运行损失函数，每个层都是固定的，且里面的W等参数不会改变，即训练完成后都不会有变化了。