diff --git a/.DS_Store b/.DS_Store index d7363b5..b830b08 100644 Binary files a/.DS_Store and b/.DS_Store differ diff --git a/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md b/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md index 303afdd..22fb411 100644 --- a/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md +++ b/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md @@ -62,9 +62,8 @@ 在线性代数中,如何判断两个顶点是否相似,可以用余弦相似度来计算(定理)。余弦相似度 = 两个矩阵相乘 除以 两条线的长度。结果越大(分子)表示相似度越高,这里我们只需要关注矩阵的值即可,因为分母(线的长度)变长,对应着矩阵的值也会增加,所以矩阵相乘的结果增幅永远大于分母的增幅。 公式变换: -$$ -cos(\theta) = \frac{A矩阵*B矩阵}{A长度*B长度} -$$ +$$cos(\theta) = \frac{A矩阵*B矩阵}{A长度*B长度}$$ + 等同于 $$ A矩阵*B矩阵=B长度*A长度*cos(\theta)