From 738c60b27934bcbd0f7691ed4058eedbd0d22b52 Mon Sep 17 00:00:00 2001 From: "ben.guo" <909336740@qq.com> Date: Wed, 22 May 2024 16:09:09 +0800 Subject: [PATCH] =?UTF-8?q?Docs.=20=E8=B0=83=E6=95=B4=E5=B1=95=E7=A4=BA?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- ...四章——多头注意力机制——QK矩阵相乘.md | 6 ++++++ 1 file changed, 6 insertions(+) diff --git a/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md b/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md index fecbe06..4c51927 100644 --- a/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md +++ b/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md @@ -65,6 +65,8 @@ $$ cos(\theta) = \frac{A矩阵*B矩阵}{A长度*B长度} $$ + + 公式变换(GitHub展示):$`cos(\theta) = \frac{A矩阵*B矩阵}{A长度*B长度}`$ @@ -73,6 +75,8 @@ $$ $$ A矩阵*B矩阵=B长度*A长度*cos(\theta) $$ + + 等同于(GitHub展示):$`A矩阵*B矩阵=B长度*A长度*cos(\theta)`$ @@ -85,6 +89,8 @@ $$ $$ A矩阵*B矩阵=B长度*(A在B上的投影) $$ + + (GitHub展示:)$`A矩阵*B矩阵=B长度*(A在B上的投影)`$ 也就是寻找两个向量的相似度,也就是看其中一个向量在另一个向量上的投影长度大小,也就是A越长 等同于 投影长度越长 等同于 两者越靠近(越相似),B是不变的。