Add. 特征变换映射（全数字列表）

1 year ago · c5f8939a4a
parent 402c314191
commit c5f8939a4a
2 changed files with 52 additions and 2 deletions
--- a/.DS_Store
+++ b/.DS_Store
--- a/人人都能看懂的Transformer/第一章——Transformer网络架构.md
+++ b/人人都能看懂的Transformer/第一章——Transformer网络架构.md
@ -76,7 +76,7 @@
 ### 语义关系学习（多头注意力）
-> Multi-HeadAttention
+> Multi-Head Self-Attention
 >
 > WHY：捕捉多种语义关系，提高模型的表达能力。如LLM是大模型的缩写，同时也是法学硕士的缩写。亦或者冬天里的能穿多少穿多少，跟夏天里的能穿多少穿多少。
@ -92,7 +92,7 @@
 ### 数值缩放
-> Add & Norm
+> Addition and Normalization
 >
 > WHY：前面我们讲到，矩阵里的数字越大，表示跟其它词的语义关系越紧密，如果两个大值相加，很可能就造成大的值特别大，小的值特别小。所以要统一到一个维度，特别是深度学习场景里，由于深度学习是矩阵乘法， 所以大值或者小值都会被无限放大，导致模型不稳定。
@ -106,6 +106,8 @@ Add & Norm的过程可以理解为相同位置元素相加，再做层归一化
 ### 前馈神经网络
 > Feed Forward Neural Network
 >
 > WHAT：数学上，对于每个位置的输入向量`x`，FFNN可以表示为：
 >
 > ~~~
@ -122,3 +124,51 @@ Add & Norm的过程可以理解为相同位置元素相加，再做层归一化
 当数据输入到神经网络后，经过一系列运算（点积），输出的数据一般是非线形的。而且维度输出的维度与输入的维度是不变的。种设计允许FFN在不改变输入和输出维度的情况下，增加网络的非线性和复杂性，从而使模型能够学习更加复杂的特征表示。
 ### 最后一个数据缩放
 同样，当数据进行点积后，大值会越来越大，小值也会越来越小，所以再做一次数值缩放。另外整个子模块会进行多次叠加，即前面说到的如GPT叠加了175层。
 ### 特征变换映射（全数字列表）
 > Linear
 前面数据经过最后一次缩放后，线形变换用于将模型的内部表示转换为最终输出，通常是一个预测任务，如语言模型中的下一个词（话）预测。
 里面包含着我们输入的文字，如果是3个，就会有3个字的列表（1万个字就是1万个字的列表），每个字都有一个概率。预测下一个字，就是找出3个字里概率最高的。当然训练过程肯定不止3个字，如GPT就有xxx个字，那么"LLM with me"的下一个词的概率，一般展示如下：
 ```
 {
    "is": 0.10,
    "the": 0.05,
    "a": 0.03,
    ...
    "learning": 0.07,
    ...
 }
 ```
 如果是预测下一个句子，通常会采用一种称为“自回归语言生成”的方法，在这种方法中，模型会一次生成一个词，然后将生成的词作为下一个预测的上下文的一部分。这个过程会重复进行，直到生成一个终止符号（如句号或特殊的结束标记），或者达到预设的最大长度限制。中间阶段的展示一般如下：
 ~~~
 [
    {"sequence": "The cat is", "probability": 0.09, "next_words": {"sitting": 0.5, "sleeping": 0.3, ...}},
    {"sequence": "She went to", "probability": 0.07, "next_words": {"the store": 0.4, "school": 0.2, ...}},
    ...
 ]
 ~~~
 > 当然，模型一般会采用某种策略（如贪婪搜索、束搜索（beam search）或采样）来逐步构建句子，而不是会生成这么庞大的组合，因为一个句子可能有几千甚至几万个词。
 每个条目包含了当前的候选序列（"sequence"），该序列的累积概率（"probability"），以及下一个可能的词及其概率（"next_words"）。模型会在每一步更新这些候选序列，直到生成完整的句子。
 ~~~
 [
    {"sequence": "The cat is sitting by the window.", "probability": 0.08},
    {"sequence": "She went to the store to buy some groceries.", "probability": 0.06},
    ...
 ]
 ~~~