docs: fix typos in multiple markdown files

pull/6/head
songwingzero 2 weeks ago
parent 4f00abf62a
commit 75180240ef

@ -2,7 +2,7 @@
深度解析Transformer大模型场景提供图、代码等力求每个人都能吃透它。
有疑惑的地方欢迎issue或邮件我😀Enjoin
有疑惑的地方欢迎issue或邮件我😀Enjoy
[Attention Is All You Need 论文地址](https://arxiv.org/pdf/1706.03762)

@ -70,7 +70,7 @@
<img src="../assets/image-20240421205946626.png" alt="文字向量化" width="550" />
> 这里用英文的输入,引文英文输入使用代码更容易理解
> 这里用英文的输入,因为英文输入使用代码更容易理解
如样本“LLM with me”大模型和我通过GPT2Tokenizer转换成索引[3069, 44, 351, 502],转成向量后再结合位置信息编码,如[1,2,3]。继续向上传递。
@ -88,7 +88,7 @@
<img src="../assets/image-20240421212923027.png" alt="语义关系学习" width="550" />
向量传入后,通过语义关系学习(一系列计算,点积/内积的方法得出一个矩阵维度是4 × 4的矩阵。矩阵里的每个值都是数字数字代表了文字对应其它文字的关注程度越高表示与其它文字的关注度越高关系越近则越小(关系越远)。
向量传入后,通过语义关系学习(一系列计算,点积/内积的方法得出一个矩阵维度是4 × 4的矩阵。矩阵里的每个值都是数字数字代表了文字对应其它文字的关注程度越高表示与其它文字的关注度越高关系越近则越小(关系越远)。
> 为什么数字越大表示关系越近现在可以简单理解就是每个词的查询向量Q会与序列中所有单词的键K向量进行点积运算得到一个分数这个分数经过softmax函数处理后就变成了注意力权重。即每个词都有跟全部词的向量结果越大表示语义关系越紧密权重越低则表示关系越疏远。
>
@ -128,7 +128,7 @@ Add & Norm的过程可以理解为相同位置元素相加再做层归一化
<img src="../assets/image-20240424204837275.png" alt="前馈神经网络" width="550" />
当数据输入到神经网络后,经过一系列运算(点积),输出的数据一般是非线的。而且维度输出的维度与输入的维度是不变的。这种设计允许FFN在不改变输入和输出维度的情况下增加网络的非线性和复杂性从而使模型能够学习更加复杂的特征表示。
当数据输入到神经网络后,经过一系列运算(点积),输出的数据一般是非线的。而且维度输出的维度与输入的维度是不变的。这种设计允许FFN在不改变输入和输出维度的情况下增加网络的非线性和复杂性从而使模型能够学习更加复杂的特征表示。
@ -171,7 +171,7 @@ Add & Norm的过程可以理解为相同位置元素相加再做层归一化
<img src="../assets/image-20240503172341945.png" alt="image-20240503172341945" width="300" />
可以简单理解为,将前面线层输出的值转化成0-1区间的概率分布进行输出。
可以简单理解为,将前面线层输出的值转化成0-1区间的概率分布进行输出。

@ -37,7 +37,7 @@ def mlp(x, scope, n_state, *, hparams):
### 神经网络demo
我们来手动推一个简单的神经网络并更新权重,用一个单层神经网络做例子。这个网络将只有一个输入、一个输出和一个权重(没有偏项b。我们将使用均方误差作为损失函数并通过梯度下降来更新权重。
我们来手动推一个简单的神经网络并更新权重,用一个单层神经网络做例子。这个网络将只有一个输入、一个输出和一个权重(没有偏项b。我们将使用均方误差作为损失函数并通过梯度下降来更新权重。
~~~markdown
输入 (x) 输出 (y)

@ -50,7 +50,7 @@ $$
### Softmax归一化
将上面的值转成0到1直接的值即百分比的概率分布。它会放大分数较高的元素并抑制分数较低的元素。在注意力机制中这意味着模型可以更加集中地关注那些与当前查询Query最相关的键Key从而获取对应的值Value
将上面的值转成0到1之间的值即百分比的概率分布。它会放大分数较高的元素并抑制分数较低的元素。在注意力机制中这意味着模型可以更加集中地关注那些与当前查询Query最相关的键Key从而获取对应的值Value
<img src="../assets/image-20240502212834597.png" alt="image-20240502212834597" width="550" />

@ -44,7 +44,7 @@ print(residual_output)
残差连接很像人,从心理学上讲,每个人都有对成功的路径依赖。比如说你上次是通过努力背公式,让你考试拿了高分,那你下次考试前,还会努力背公式。亦或者是你发现运动过程中,边运动边听音乐能帮忙你运动更长时间,你下次运动的时候还是会边听音乐边运动。
经过两者的相加后大值之间相加就有可能超过1小值相加就有可能小-1这时候就需要进行一次缩放。
经过两者的相加后大值之间相加就有可能超过1小值相加就有可能小-1这时候就需要进行一次缩放。

@ -16,7 +16,7 @@
>
> Scale缩放层。缩放操作通常用于调整矩阵乘法的结果。在计算注意力分数之前会将查询和键的矩阵乘法结果除以一个缩放因子通常是键向量维度的平方根。这样做是为了防止在进行softmax操作之前注意力分数过大导致梯度消失问题。
>
> Softmax软最大值。oftmax用于将注意力分数经过缩放的矩阵乘法结果转换为概率值这些概率值表示每个头在给定输入时应该关注的程度。
> Softmax软最大值。softmax用于将注意力分数经过缩放的矩阵乘法结果转换为概率值这些概率值表示每个头在给定输入时应该关注的程度。
>
> 另外上面的A有的文章会写成Z两者是一样的。

@ -25,7 +25,7 @@
#### 损失函数
- 训练阶段会有损失函数且每个层都会多次循环以进行更新各种W等参数
- 推理阶段不会运行损失函数每个层都是固定的且里面的W等参数不会改,即训练完成后都不会有变化了。
- 推理阶段不会运行损失函数每个层都是固定的且里面的W等参数不会改,即训练完成后都不会有变化了。

Loading…
Cancel
Save