From 84f95778687f2fd1aaacc47ad5cd5d375bc1da96 Mon Sep 17 00:00:00 2001 From: "ben.guo" <909336740@qq.com> Date: Wed, 22 May 2024 16:02:15 +0800 Subject: [PATCH] =?UTF-8?q?Add.=20=E5=A2=9E=E5=8A=A0GitHub=E7=BA=BF?= =?UTF-8?q?=E4=B8=8A=E5=85=AC=E5=BC=8F=E5=B1=95=E7=A4=BA?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- ...多头注意力机制——QK矩阵相乘.md | 16 ++++++++-------- 1 file changed, 8 insertions(+), 8 deletions(-) diff --git a/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md b/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md index b320d60..55d2915 100644 --- a/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md +++ b/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md @@ -61,20 +61,20 @@ 在线性代数中,如何判断两个顶点是否相似,可以用余弦相似度来计算(定理)。余弦相似度 = 两个矩阵相乘 除以 两条线的长度。结果越大(分子)表示相似度越高,这里我们只需要关注矩阵的值即可,因为分母(线的长度)变长,对应着矩阵的值也会增加,所以矩阵相乘的结果增幅永远大于分母的增幅。 -公式变换:$`cos(\theta) = \frac{A矩阵*B矩阵}{A长度*B长度}`$ - -## - +公式变换(Markdown展示): $$ -P(e r r)=1-\sum_{c \in \mathcal{Y}} P(c | \boldsymbol{x}) P(c | \boldsymbol{z}) +cos(\theta) = \frac{A矩阵*B矩阵}{A长度*B长度} $$ +公式变换(GitHub展示):$`cos(\theta) = \frac{A矩阵*B矩阵}{A长度*B长度}`$ - - -等同于 +等同于(Markdown展示): $$ A矩阵*B矩阵=B长度*A长度*cos(\theta) $$ + + +等同于(GitHub展示):$`A矩阵*B矩阵=B长度*A长度*cos(\theta)`$ + 我们做一个浅绿色的垂线,它就变成一个直角三角形。在数学三角函数中,cos的邻边等于cos(θ)乘以斜边。也就是A的长度乘以cos(θ),等于黑色的线(B上的黑色线) image-20240430191813984