From 75180240ef87e7dda2315f40a2d75ca42cb08ef5 Mon Sep 17 00:00:00 2001 From: songwingzero <99645236+songwingzero@users.noreply.github.com> Date: Sun, 7 Jun 2026 19:27:19 +0800 Subject: [PATCH] docs: fix typos in multiple markdown files --- ...——多头注意力机制——全流程.md | Bin 0 -> 4096 bytes 人人都能看懂的Transformer/README.md | 2 +- .../第一章——Transformer网络架构.md | 8 ++++---- .../第七章——前馈神经网络.md | 2 +- ...——多头注意力机制——全流程.md | 2 +- .../第六章——数值缩放.md | 2 +- ...多头注意力机制——QK矩阵相乘.md | 2 +- .../训练和推理的区别(选修).md | 2 +- 8 files changed, 10 insertions(+), 10 deletions(-) create mode 100644 人人都能看懂的Transformer/._第五章——多头注意力机制——全流程.md diff --git a/人人都能看懂的Transformer/._第五章——多头注意力机制——全流程.md b/人人都能看懂的Transformer/._第五章——多头注意力机制——全流程.md new file mode 100644 index 0000000000000000000000000000000000000000..389afdbed6bfb2315b3761cf8f8cebd5210d4450 GIT binary patch literal 4096 zcmZQz6=P>$Vqox1Ojhs@R)|o50+1L3ClDJkFz{^v(m+1nBL)UWIUt(=a103vdTO_^ z5u$@(0Z_RBnifVNA1W@DoS&Kf7%s{i3$kztVg G{~rJk-YgUV literal 0 HcmV?d00001 diff --git a/人人都能看懂的Transformer/README.md b/人人都能看懂的Transformer/README.md index 7b73560..aacae48 100644 --- a/人人都能看懂的Transformer/README.md +++ b/人人都能看懂的Transformer/README.md @@ -2,7 +2,7 @@ 深度解析Transformer(大模型场景),提供图、代码等,力求每个人都能吃透它。 -有疑惑的地方欢迎issue或邮件我,😀Enjoin! +有疑惑的地方欢迎issue或邮件我,😀Enjoy! [Attention Is All You Need 论文地址](https://arxiv.org/pdf/1706.03762) diff --git a/人人都能看懂的Transformer/第一章——Transformer网络架构.md b/人人都能看懂的Transformer/第一章——Transformer网络架构.md index eb52fc9..87e62ec 100644 --- a/人人都能看懂的Transformer/第一章——Transformer网络架构.md +++ b/人人都能看懂的Transformer/第一章——Transformer网络架构.md @@ -70,7 +70,7 @@ 文字向量化 -> 这里用英文的输入,引文英文输入使用代码更容易理解 +> 这里用英文的输入,因为英文输入使用代码更容易理解 如样本“LLM with me”(大模型和我),通过GPT2Tokenizer转换成索引[3069, 44, 351, 502],转成向量后再结合位置信息编码,如[1,2,3]。继续向上传递。 @@ -88,7 +88,7 @@ 语义关系学习 -向量传入后,通过语义关系学习(一系列计算,点积/内积的方法),得出一个矩阵,维度是4 × 4的矩阵。矩阵里的每个值都是数字,数字代表了文字对应其它文字的关注程度,越高表示与其它文字的关注度越高(关系越近),反正则越小(关系越远)。 +向量传入后,通过语义关系学习(一系列计算,点积/内积的方法),得出一个矩阵,维度是4 × 4的矩阵。矩阵里的每个值都是数字,数字代表了文字对应其它文字的关注程度,越高表示与其它文字的关注度越高(关系越近),反之则越小(关系越远)。 > 为什么数字越大表示关系越近,现在可以简单理解,就是每个词的查询向量(Q)会与序列中所有单词的键(K)向量进行点积运算,得到一个分数,这个分数经过softmax函数处理后,就变成了注意力权重。即每个词都有跟全部词的向量结果,越大表示语义关系越紧密,权重越低则表示关系越疏远。 > @@ -128,7 +128,7 @@ Add & Norm的过程可以理解为相同位置元素相加,再做层归一化 前馈神经网络 -当数据输入到神经网络后,经过一系列运算(点积),输出的数据一般是非线形的。而且维度输出的维度与输入的维度是不变的。这种设计允许FFN在不改变输入和输出维度的情况下,增加网络的非线性和复杂性,从而使模型能够学习更加复杂的特征表示。 +当数据输入到神经网络后,经过一系列运算(点积),输出的数据一般是非线性的。而且维度输出的维度与输入的维度是不变的。这种设计允许FFN在不改变输入和输出维度的情况下,增加网络的非线性和复杂性,从而使模型能够学习更加复杂的特征表示。 @@ -171,7 +171,7 @@ Add & Norm的过程可以理解为相同位置元素相加,再做层归一化 image-20240503172341945 -可以简单理解为,将前面线形层输出的值,转化成0-1区间的概率分布,进行输出。 +可以简单理解为,将前面线性层输出的值,转化成0-1区间的概率分布,进行输出。 diff --git a/人人都能看懂的Transformer/第七章——前馈神经网络.md b/人人都能看懂的Transformer/第七章——前馈神经网络.md index a0b7627..11be703 100644 --- a/人人都能看懂的Transformer/第七章——前馈神经网络.md +++ b/人人都能看懂的Transformer/第七章——前馈神经网络.md @@ -37,7 +37,7 @@ def mlp(x, scope, n_state, *, hparams): ### 神经网络demo -我们来手动推一个简单的神经网络并更新权重,用一个单层神经网络做例子。这个网络将只有一个输入、一个输出和一个权重(没有偏值项b)。我们将使用均方误差作为损失函数,并通过梯度下降来更新权重。 +我们来手动推一个简单的神经网络并更新权重,用一个单层神经网络做例子。这个网络将只有一个输入、一个输出和一个权重(没有偏置项b)。我们将使用均方误差作为损失函数,并通过梯度下降来更新权重。 ~~~markdown 输入 (x) 输出 (y) diff --git a/人人都能看懂的Transformer/第五章——多头注意力机制——全流程.md b/人人都能看懂的Transformer/第五章——多头注意力机制——全流程.md index 8c33792..db93c68 100644 --- a/人人都能看懂的Transformer/第五章——多头注意力机制——全流程.md +++ b/人人都能看懂的Transformer/第五章——多头注意力机制——全流程.md @@ -50,7 +50,7 @@ $$ ### Softmax归一化 -将上面的值转成0到1直接的值,即百分比的概率分布。它会放大分数较高的元素,并抑制分数较低的元素。在注意力机制中,这意味着模型可以更加集中地关注那些与当前查询(Query)最相关的键(Key),从而获取对应的值(Value)。 +将上面的值转成0到1之间的值,即百分比的概率分布。它会放大分数较高的元素,并抑制分数较低的元素。在注意力机制中,这意味着模型可以更加集中地关注那些与当前查询(Query)最相关的键(Key),从而获取对应的值(Value)。 image-20240502212834597 diff --git a/人人都能看懂的Transformer/第六章——数值缩放.md b/人人都能看懂的Transformer/第六章——数值缩放.md index 1f802c8..38ae68c 100644 --- a/人人都能看懂的Transformer/第六章——数值缩放.md +++ b/人人都能看懂的Transformer/第六章——数值缩放.md @@ -44,7 +44,7 @@ print(residual_output) 残差连接很像人,从心理学上讲,每个人都有对成功的路径依赖。比如说你上次是通过努力背公式,让你考试拿了高分,那你下次考试前,还会努力背公式。亦或者是你发现运动过程中,边运动边听音乐能帮忙你运动更长时间,你下次运动的时候还是会边听音乐边运动。 -经过两者的相加后,大值之间相加就有可能超过1,小值相加就有可能小与-1,这时候就需要进行一次缩放。 +经过两者的相加后,大值之间相加就有可能超过1,小值相加就有可能小于-1,这时候就需要进行一次缩放。 diff --git a/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md b/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md index 36dfae5..aa8c785 100644 --- a/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md +++ b/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md @@ -16,7 +16,7 @@ > > Scale:缩放层。缩放操作通常用于调整矩阵乘法的结果。在计算注意力分数之前,会将查询和键的矩阵乘法结果除以一个缩放因子,通常是键向量维度的平方根。这样做是为了防止在进行softmax操作之前,注意力分数过大导致梯度消失问题。 > -> Softmax:软最大值。oftmax用于将注意力分数(经过缩放的矩阵乘法结果)转换为概率值,这些概率值表示每个头在给定输入时应该关注的程度。 +> Softmax:软最大值。softmax用于将注意力分数(经过缩放的矩阵乘法结果)转换为概率值,这些概率值表示每个头在给定输入时应该关注的程度。 > > 另外,上面的A,有的文章会写成Z,两者是一样的。 diff --git a/人人都能看懂的Transformer/训练和推理的区别(选修).md b/人人都能看懂的Transformer/训练和推理的区别(选修).md index 7609d64..6e9b5d7 100644 --- a/人人都能看懂的Transformer/训练和推理的区别(选修).md +++ b/人人都能看懂的Transformer/训练和推理的区别(选修).md @@ -25,7 +25,7 @@ #### 损失函数 - 训练阶段:会有损失函数,且每个层都会多次循环,以进行更新各种W等参数 -- 推理阶段:不会运行损失函数,每个层都是固定的,且里面的W等参数不会改成,即训练完成后都不会有变化了。 +- 推理阶段:不会运行损失函数,每个层都是固定的,且里面的W等参数不会改变,即训练完成后都不会有变化了。