Add. 转换成百分比概率

master
ben.guo 1 year ago
parent 479d59d240
commit 71376b76f2

@ -140,7 +140,7 @@ Add & Norm的过程可以理解为相同位置元素相加再做层归一化
> 机器人对话场景如GPT
如果训练阶段我们的总文本词汇是3个。预测阶段输入"LLM with me",那么对于"LLM with me"中的每个标记线性层将输出一个长度为3的向量。如果训练阶段的总文本词汇是10,000个那么输出的则是10,000的向量可以理解为概率。预测下一个字就是找出向量矩阵中概率最高的对应的文字。如"LLM with me"的下一个词的概率,一般展示如下:
如果训练阶段我们的总文本词汇是3个最终会训练成3个词的向量队列。预测阶段输入"LLM with me",那么对于"LLM with me"中的每个标记线性层将输出一个长度为3的向量。如果训练阶段的总文本词汇是10,000个最终会训练成10,000个词的向量队列那么输出的则是10,000的向量可以理解为概率。预测下一个字就是找出向量矩阵中概率最高的对应的文字。如"LLM with me"的下一个词的概率,一般展示如下:
```
{
@ -177,3 +177,8 @@ Add & Norm的过程可以理解为相同位置元素相加再做层归一化
### 转换成百分比概率
> WHY归一化到0-1区间便于比较和处理。将注意力分数转换为概率分布。
可以简单理解为前面输出的概率会被转化成0-1的区间进行输出。

Loading…
Cancel
Save