docs: fix typos in multiple markdown files

2 months ago · 75180240ef
parent 4f00abf62a
commit 75180240ef
8 changed files with 10 additions and 10 deletions
--- a/人人都能看懂的Transformer/._第五章——多头注意力机制——全流程.md
+++ b/人人都能看懂的Transformer/._第五章——多头注意力机制——全流程.md
--- a/人人都能看懂的Transformer/README.md
+++ b/人人都能看懂的Transformer/README.md
@ -2,7 +2,7 @@

 深度解析Transformer（大模型场景），提供图、代码等，力求每个人都能吃透它。

-有疑惑的地方欢迎issue或邮件我，😀Enjoin！
+有疑惑的地方欢迎issue或邮件我，😀Enjoy！

 [Attention Is All You Need 论文地址](https://arxiv.org/pdf/1706.03762)

--- a/人人都能看懂的Transformer/第一章——Transformer网络架构.md
+++ b/人人都能看懂的Transformer/第一章——Transformer网络架构.md
@ -70,7 +70,7 @@

 <img src="../assets/image-20240421205946626.png" alt="文字向量化" width="550" />

-> 这里用英文的输入，引文英文输入使用代码更容易理解
+> 这里用英文的输入，因为英文输入使用代码更容易理解

 如样本“LLM with me”（大模型和我），通过GPT2Tokenizer转换成索引[3069, 44, 351, 502]，转成向量后再结合位置信息编码，如[1,2,3]。继续向上传递。

@ -88,7 +88,7 @@

 <img src="../assets/image-20240421212923027.png" alt="语义关系学习" width="550" />

-向量传入后，通过语义关系学习（一系列计算，点积/内积的方法），得出一个矩阵，维度是4 × 4的矩阵。矩阵里的每个值都是数字，数字代表了文字对应其它文字的关注程度，越高表示与其它文字的关注度越高（关系越近），反正则越小（关系越远）。
+向量传入后，通过语义关系学习（一系列计算，点积/内积的方法），得出一个矩阵，维度是4 × 4的矩阵。矩阵里的每个值都是数字，数字代表了文字对应其它文字的关注程度，越高表示与其它文字的关注度越高（关系越近），反之则越小（关系越远）。

 > 为什么数字越大表示关系越近，现在可以简单理解，就是每个词的查询向量（Q）会与序列中所有单词的键（K）向量进行点积运算，得到一个分数，这个分数经过softmax函数处理后，就变成了注意力权重。即每个词都有跟全部词的向量结果，越大表示语义关系越紧密，权重越低则表示关系越疏远。
 >
@ -128,7 +128,7 @@ Add & Norm的过程可以理解为相同位置元素相加，再做层归一化

 <img src="../assets/image-20240424204837275.png" alt="前馈神经网络" width="550" />

-当数据输入到神经网络后，经过一系列运算（点积），输出的数据一般是非线形的。而且维度输出的维度与输入的维度是不变的。这种设计允许FFN在不改变输入和输出维度的情况下，增加网络的非线性和复杂性，从而使模型能够学习更加复杂的特征表示。
+当数据输入到神经网络后，经过一系列运算（点积），输出的数据一般是非线性的。而且维度输出的维度与输入的维度是不变的。这种设计允许FFN在不改变输入和输出维度的情况下，增加网络的非线性和复杂性，从而使模型能够学习更加复杂的特征表示。



@ -171,7 +171,7 @@ Add & Norm的过程可以理解为相同位置元素相加，再做层归一化

 <img src="../assets/image-20240503172341945.png" alt="image-20240503172341945" width="300" />

-可以简单理解为，将前面线形层输出的值，转化成0-1区间的概率分布，进行输出。
+可以简单理解为，将前面线性层输出的值，转化成0-1区间的概率分布，进行输出。



--- a/人人都能看懂的Transformer/第七章——前馈神经网络.md
+++ b/人人都能看懂的Transformer/第七章——前馈神经网络.md
@ -37,7 +37,7 @@ def mlp(x, scope, n_state, *, hparams):

 ### 神经网络demo

-我们来手动推一个简单的神经网络并更新权重，用一个单层神经网络做例子。这个网络将只有一个输入、一个输出和一个权重（没有偏值项b）。我们将使用均方误差作为损失函数，并通过梯度下降来更新权重。
+我们来手动推一个简单的神经网络并更新权重，用一个单层神经网络做例子。这个网络将只有一个输入、一个输出和一个权重（没有偏置项b）。我们将使用均方误差作为损失函数，并通过梯度下降来更新权重。

 ~~~markdown
 输入 (x)  输出 (y)
--- a/人人都能看懂的Transformer/第五章——多头注意力机制——全流程.md
+++ b/人人都能看懂的Transformer/第五章——多头注意力机制——全流程.md
@ -50,7 +50,7 @@ $$

 ### Softmax归一化

-将上面的值转成0到1直接的值，即百分比的概率分布。它会放大分数较高的元素，并抑制分数较低的元素。在注意力机制中，这意味着模型可以更加集中地关注那些与当前查询（Query）最相关的键（Key），从而获取对应的值（Value）。
+将上面的值转成0到1之间的值，即百分比的概率分布。它会放大分数较高的元素，并抑制分数较低的元素。在注意力机制中，这意味着模型可以更加集中地关注那些与当前查询（Query）最相关的键（Key），从而获取对应的值（Value）。

 <img src="../assets/image-20240502212834597.png" alt="image-20240502212834597" width="550" />

--- a/人人都能看懂的Transformer/第六章——数值缩放.md
+++ b/人人都能看懂的Transformer/第六章——数值缩放.md
@ -44,7 +44,7 @@ print(residual_output)

 残差连接很像人，从心理学上讲，每个人都有对成功的路径依赖。比如说你上次是通过努力背公式，让你考试拿了高分，那你下次考试前，还会努力背公式。亦或者是你发现运动过程中，边运动边听音乐能帮忙你运动更长时间，你下次运动的时候还是会边听音乐边运动。

-经过两者的相加后，大值之间相加就有可能超过1，小值相加就有可能小与-1，这时候就需要进行一次缩放。
+经过两者的相加后，大值之间相加就有可能超过1，小值相加就有可能小于-1，这时候就需要进行一次缩放。



--- a/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md
+++ b/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md
@ -16,7 +16,7 @@
 >
 > Scale：缩放层。缩放操作通常用于调整矩阵乘法的结果。在计算注意力分数之前，会将查询和键的矩阵乘法结果除以一个缩放因子，通常是键向量维度的平方根。这样做是为了防止在进行softmax操作之前，注意力分数过大导致梯度消失问题。
 >
-> Softmax：软最大值。oftmax用于将注意力分数（经过缩放的矩阵乘法结果）转换为概率值，这些概率值表示每个头在给定输入时应该关注的程度。
+> Softmax：软最大值。softmax用于将注意力分数（经过缩放的矩阵乘法结果）转换为概率值，这些概率值表示每个头在给定输入时应该关注的程度。
 >
 > 另外，上面的A，有的文章会写成Z，两者是一样的。

--- a/人人都能看懂的Transformer/训练和推理的区别（选修）.md
+++ b/人人都能看懂的Transformer/训练和推理的区别（选修）.md
@ -25,7 +25,7 @@
 #### 损失函数

 - 训练阶段：会有损失函数，且每个层都会多次循环，以进行更新各种W等参数
- 推理阶段：不会运行损失函数，每个层都是固定的，且里面的W等参数不会改成，即训练完成后都不会有变化了。
+- 推理阶段：不会运行损失函数，每个层都是固定的，且里面的W等参数不会改变，即训练完成后都不会有变化了。