Add. Scale缩放

master
ben.guo 6 months ago
parent 6118b1904e
commit 27882eb585

Binary file not shown.

After

Width:  |  Height:  |  Size: 102 KiB

@ -26,3 +26,16 @@ $$
<img src="../assets/image-20240502141342857.png" alt="image-20240502141342857" style="zoom:50%;" /> <img src="../assets/image-20240502141342857.png" alt="image-20240502141342857" style="zoom:50%;" />
### Scale缩放
缩放层。缩放操作通常用于调整矩阵乘法的结果。在计算注意力分数之前会将查询和键的矩阵乘法结果除以一个缩放因子通常是键向量维度的平方根。可以看到上面的它的公式就是让QK矩阵去除以根号下的d_k而d_k就是每个头的维度即768除以12个头得到64d_k=64。
也就是下面这个表的每一个值都会除以64相当于值会进行缩小。
<img src="../assets/image-20240502142816044.png" alt="image-20240502142816044" style="zoom:50%;" />
### Mask

Loading…
Cancel
Save