Update. 更新展示图

master
ben.guo 1 year ago
parent d89b6d1125
commit dd4eae8820

Binary file not shown.

After

Width:  |  Height:  |  Size: 150 KiB

@ -98,7 +98,7 @@
将语义关系学习里输出的矩阵,加上残差(输入语义关系学习)前的向量,再进行值的统一缩放,大部分情况下是缩放到[-1,1]区间。 将语义关系学习里输出的矩阵,加上残差(输入语义关系学习)前的向量,再进行值的统一缩放,大部分情况下是缩放到[-1,1]区间。
<img src="../assets/image-20240423093444733.png" alt="数值缩放" style="zoom:50%;" /> ![数值缩放](../assets/image-20240424171227926.png)
Add & Norm的过程可以理解为相同位置元素相加再做层归一化Layer Normalization即如果残差连接的A矩阵是3维的多头注意力输出的B矩阵也会是3维的而且两者一定是同Size即A矩阵是(None, 4, 768)B矩阵肯定也是(None, 4, 768),两者同位置的如`A[i][j][k]=0.1``B[i][j][k]=0.2`则相加是0.3,再去进行归一化。层归一化后面我们会详解。 Add & Norm的过程可以理解为相同位置元素相加再做层归一化Layer Normalization即如果残差连接的A矩阵是3维的多头注意力输出的B矩阵也会是3维的而且两者一定是同Size即A矩阵是(None, 4, 768)B矩阵肯定也是(None, 4, 768),两者同位置的如`A[i][j][k]=0.1``B[i][j][k]=0.2`则相加是0.3,再去进行归一化。层归一化后面我们会详解。

Loading…
Cancel
Save