diff --git a/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md b/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md index fecbe06..4c51927 100644 --- a/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md +++ b/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md @@ -65,6 +65,8 @@ $$ cos(\theta) = \frac{A矩阵*B矩阵}{A长度*B长度} $$ + + 公式变换(GitHub展示):$`cos(\theta) = \frac{A矩阵*B矩阵}{A长度*B长度}`$ @@ -73,6 +75,8 @@ $$ $$ A矩阵*B矩阵=B长度*A长度*cos(\theta) $$ + + 等同于(GitHub展示):$`A矩阵*B矩阵=B长度*A长度*cos(\theta)`$ @@ -85,6 +89,8 @@ $$ $$ A矩阵*B矩阵=B长度*(A在B上的投影) $$ + + (GitHub展示:)$`A矩阵*B矩阵=B长度*(A在B上的投影)`$ 也就是寻找两个向量的相似度,也就是看其中一个向量在另一个向量上的投影长度大小,也就是A越长 等同于 投影长度越长 等同于 两者越靠近(越相似),B是不变的。