Fix. 调整最后两层的解析内容

master
ben.guo 1 year ago
parent a14a3e3b59
commit eda2a9e4b4

@ -153,15 +153,31 @@ Add & Norm的过程可以理解为相同位置元素相加再做层归一化
``` ```
{ {
"is": 0.10, "is": 0.10,
"the": 0.05, "the": -0.05,
"a": 0.03, "a": 2.03,
... ...
"learning": 0.07, "learning": -0.07,
... ...
} }
``` ```
如果是预测下一个句子,通常会采用一种称为“自回归语言生成”的方法,在这种方法中,模型会一次生成一个词,然后将生成的词作为下一个预测的上下文的一部分。这个过程会重复进行,直到生成一个终止符号(如句号或特殊的结束标记),或者达到预设的最大长度限制。中间阶段的展示一般如下: 但上面输出的是文字的值,如果我们以最高值作为下个词的输出,还需要将它们统一到一个数值区间。
### 转换成百分比概率
> WHY转化到0-1区间便于比较同维度和处理。将注意力分数转换为概率分布。
<img src="../assets/image-20240503172341945.png" alt="image-20240503172341945" style="zoom:50%;" />
可以简单理解为将前面线形层输出的值转化成0-1的概率分布区间进行输出。
### 合并成一个句子
上面将的都是输出一个词,如果是预测下一个句子,通常会采用一种称为“自回归语言生成”的方法,在这种方法中,模型会一次生成一个词,然后将生成的词作为下一个预测的上下文的一部分。这个过程会重复进行,直到生成一个终止符号(如句号或特殊的结束标记),或者达到预设的最大长度限制。中间阶段的展示一般如下:
~~~ ~~~
[ [
@ -185,14 +201,4 @@ Add & Norm的过程可以理解为相同位置元素相加再做层归一化
### 转换成百分比概率
> WHY归一化到0-1区间便于比较和处理。将注意力分数转换为概率分布。
<img src="../assets/image-20240503172341945.png" alt="image-20240503172341945" style="zoom:50%;" />
可以简单理解为前面输出的概率会被转化成0-1的区间进行输出。
至此你已经对整个Transformer有的整体了解我们已经是熟悉transformer的人了🎉🎉🎉 至此你已经对整个Transformer有的整体了解我们已经是熟悉transformer的人了🎉🎉🎉

Loading…
Cancel
Save