|
|
@ -142,6 +142,8 @@ Add & Norm的过程可以理解为相同位置元素相加,再做层归一化
|
|
|
|
|
|
|
|
|
|
|
|
> Linear
|
|
|
|
> Linear
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
<img src="../assets/image-20240503172310152.png" alt="image-20240503172310152" style="zoom:50%;" />
|
|
|
|
|
|
|
|
|
|
|
|
前面数据经过最后一次缩放后,线形变换用于前者的输出,映射到一个词汇表大小的向量上,并选举出最大可能性的词或句子作为最终输出
|
|
|
|
前面数据经过最后一次缩放后,线形变换用于前者的输出,映射到一个词汇表大小的向量上,并选举出最大可能性的词或句子作为最终输出
|
|
|
|
|
|
|
|
|
|
|
|
> 机器人对话场景(如GPT)
|
|
|
|
> 机器人对话场景(如GPT)
|
|
|
@ -187,6 +189,8 @@ Add & Norm的过程可以理解为相同位置元素相加,再做层归一化
|
|
|
|
|
|
|
|
|
|
|
|
> WHY:归一化到0-1区间,便于比较和处理。将注意力分数转换为概率分布。
|
|
|
|
> WHY:归一化到0-1区间,便于比较和处理。将注意力分数转换为概率分布。
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
<img src="../assets/image-20240503172341945.png" alt="image-20240503172341945" style="zoom:50%;" />
|
|
|
|
|
|
|
|
|
|
|
|
可以简单理解为,前面输出的概率,会被转化成0-1的区间进行输出。
|
|
|
|
可以简单理解为,前面输出的概率,会被转化成0-1的区间进行输出。
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|