Update. 特征变换映射(全数字列表)

master
ben.guo 1 year ago
parent aa7028e5ff
commit 479d59d240

@ -136,9 +136,11 @@ Add & Norm的过程可以理解为相同位置元素相加再做层归一化
> Linear
前面数据经过最后一次缩放后,线形变换用于将模型的内部表示转换为最终输出,通常是一个预测任务,如语言模型中的下一个词(话)预测。
前面数据经过最后一次缩放后,线形变换用于前者的输出,映射到一个词汇表大小的向量上,并选举出最大可能性的词或句子作为最终输出
里面包含着我们输入的文字如果是3个就会有3个字的列表1万个字就是1万个字的列表每个字都有一个概率。预测下一个字就是找出3个字里概率最高的。当然训练过程肯定不止3个字如GPT就有xxx个字那么"LLM with me"的下一个词的概率,一般展示如下:
> 机器人对话场景如GPT
如果训练阶段我们的总文本词汇是3个。预测阶段输入"LLM with me",那么对于"LLM with me"中的每个标记线性层将输出一个长度为3的向量。如果训练阶段的总文本词汇是10,000个那么输出的则是10,000的向量可以理解为概率。预测下一个字就是找出向量矩阵中概率最高的对应的文字。如"LLM with me"的下一个词的概率,一般展示如下:
```
{
@ -172,3 +174,6 @@ Add & Norm的过程可以理解为相同位置元素相加再做层归一化
...
]
~~~

Loading…
Cancel
Save