diff --git a/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md b/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md index b320d60..55d2915 100644 --- a/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md +++ b/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md @@ -61,20 +61,20 @@ 在线性代数中,如何判断两个顶点是否相似,可以用余弦相似度来计算(定理)。余弦相似度 = 两个矩阵相乘 除以 两条线的长度。结果越大(分子)表示相似度越高,这里我们只需要关注矩阵的值即可,因为分母(线的长度)变长,对应着矩阵的值也会增加,所以矩阵相乘的结果增幅永远大于分母的增幅。 -公式变换:$`cos(\theta) = \frac{A矩阵*B矩阵}{A长度*B长度}`$ - -## - +公式变换(Markdown展示): $$ -P(e r r)=1-\sum_{c \in \mathcal{Y}} P(c | \boldsymbol{x}) P(c | \boldsymbol{z}) +cos(\theta) = \frac{A矩阵*B矩阵}{A长度*B长度} $$ +公式变换(GitHub展示):$`cos(\theta) = \frac{A矩阵*B矩阵}{A长度*B长度}`$ - - -等同于 +等同于(Markdown展示): $$ A矩阵*B矩阵=B长度*A长度*cos(\theta) $$ + + +等同于(GitHub展示):$`A矩阵*B矩阵=B长度*A长度*cos(\theta)`$ + 我们做一个浅绿色的垂线,它就变成一个直角三角形。在数学三角函数中,cos的邻边等于cos(θ)乘以斜边。也就是A的长度乘以cos(θ),等于黑色的线(B上的黑色线) image-20240430191813984