From f852aea20603df78a739c9a4baa39ad8b082b298 Mon Sep 17 00:00:00 2001 From: "ben.guo" <909336740@qq.com> Date: Wed, 22 May 2024 15:58:36 +0800 Subject: [PATCH] =?UTF-8?q?Fix.=20=E4=BF=AE=E6=AD=A3=E5=85=AC=E5=BC=8F?= =?UTF-8?q?=E5=B1=95=E7=A4=BA?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- ...—多头注意力机制——QK矩阵相乘.md | 12 ++---------- 1 file changed, 2 insertions(+), 10 deletions(-) diff --git a/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md b/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md index 6060f4e..b320d60 100644 --- a/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md +++ b/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md @@ -61,20 +61,12 @@ 在线性代数中,如何判断两个顶点是否相似,可以用余弦相似度来计算(定理)。余弦相似度 = 两个矩阵相乘 除以 两条线的长度。结果越大(分子)表示相似度越高,这里我们只需要关注矩阵的值即可,因为分母(线的长度)变长,对应着矩阵的值也会增加,所以矩阵相乘的结果增幅永远大于分母的增幅。 -公式变换: -$$ -cos(\theta) = \frac{A矩阵*B矩阵}{A长度*B长度} -$$ -## - -$$ -P(e r r)=1-\sum_{c \in \mathcal{Y}} P(c | \boldsymbol{x}) P(c | \boldsymbol{z}) -$$ +公式变换:$`cos(\theta) = \frac{A矩阵*B矩阵}{A长度*B长度}`$ ## $$ -cos(\theta) = \frac{A矩阵*B矩阵}{A长度*B长度} +P(e r r)=1-\sum_{c \in \mathcal{Y}} P(c | \boldsymbol{x}) P(c | \boldsymbol{z}) $$