|
|
|
@ -153,15 +153,31 @@ Add & Norm的过程可以理解为相同位置元素相加,再做层归一化
|
|
|
|
|
```
|
|
|
|
|
{
|
|
|
|
|
"is": 0.10,
|
|
|
|
|
"the": 0.05,
|
|
|
|
|
"a": 0.03,
|
|
|
|
|
"the": -0.05,
|
|
|
|
|
"a": 2.03,
|
|
|
|
|
...
|
|
|
|
|
"learning": 0.07,
|
|
|
|
|
"learning": -0.07,
|
|
|
|
|
...
|
|
|
|
|
}
|
|
|
|
|
```
|
|
|
|
|
|
|
|
|
|
如果是预测下一个句子,通常会采用一种称为“自回归语言生成”的方法,在这种方法中,模型会一次生成一个词,然后将生成的词作为下一个预测的上下文的一部分。这个过程会重复进行,直到生成一个终止符号(如句号或特殊的结束标记),或者达到预设的最大长度限制。中间阶段的展示一般如下:
|
|
|
|
|
但上面输出的是文字的值,如果我们以最高值作为下个词的输出,还需要将它们统一到一个数值区间。
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
### 转换成百分比概率
|
|
|
|
|
|
|
|
|
|
> WHY:转化到0-1区间,便于比较(同维度)和处理。将注意力分数转换为概率分布。
|
|
|
|
|
|
|
|
|
|
<img src="../assets/image-20240503172341945.png" alt="image-20240503172341945" style="zoom:50%;" />
|
|
|
|
|
|
|
|
|
|
可以简单理解为,将前面线形层输出的值,转化成0-1的概率分布区间进行输出。
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
### 合并成一个句子
|
|
|
|
|
|
|
|
|
|
上面将的都是输出一个词,如果是预测下一个句子,通常会采用一种称为“自回归语言生成”的方法,在这种方法中,模型会一次生成一个词,然后将生成的词作为下一个预测的上下文的一部分。这个过程会重复进行,直到生成一个终止符号(如句号或特殊的结束标记),或者达到预设的最大长度限制。中间阶段的展示一般如下:
|
|
|
|
|
|
|
|
|
|
~~~
|
|
|
|
|
[
|
|
|
|
@ -185,14 +201,4 @@ Add & Norm的过程可以理解为相同位置元素相加,再做层归一化
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
### 转换成百分比概率
|
|
|
|
|
|
|
|
|
|
> WHY:归一化到0-1区间,便于比较和处理。将注意力分数转换为概率分布。
|
|
|
|
|
|
|
|
|
|
<img src="../assets/image-20240503172341945.png" alt="image-20240503172341945" style="zoom:50%;" />
|
|
|
|
|
|
|
|
|
|
可以简单理解为,前面输出的概率,会被转化成0-1的区间进行输出。
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
至此,你已经对整个Transformer有的整体了解,我们已经是熟悉transformer的人了🎉🎉🎉
|
|
|
|
|