From cea684e5326abf1e6e3f85b7f6eb053089e335fb Mon Sep 17 00:00:00 2001 From: "ben.guo" <909336740@qq.com> Date: Thu, 2 May 2024 21:15:42 +0800 Subject: [PATCH] =?UTF-8?q?Update.=20=E5=A2=9E=E5=8A=A0=E8=A7=A3=E6=9E=90?= =?UTF-8?q?=E5=86=85=E5=AE=B9?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- ...第五章——多头注意力机制——全流程.md | 8 +++++--- 1 file changed, 5 insertions(+), 3 deletions(-) diff --git a/人人都能看懂的Transformer/第五章——多头注意力机制——全流程.md b/人人都能看懂的Transformer/第五章——多头注意力机制——全流程.md index c5cd9e3..54ad4a9 100644 --- a/人人都能看懂的Transformer/第五章——多头注意力机制——全流程.md +++ b/人人都能看懂的Transformer/第五章——多头注意力机制——全流程.md @@ -8,8 +8,6 @@ - - ### QK矩阵相乘 上面我们计算好了QK相乘后的矩阵,我们看下原文中的Attention公式 @@ -64,4 +62,8 @@ $$ image-20240502152450856 -可以看到`LL`的概率总和是1,`M`的概率总和也是1。以此类推。 +可以看到`LL`对其它文本信息的概率总和是1,`M`对其它文本信息的概率总和也是1。以此类推,此时整个矩阵的形状是没有变的。 + + + +### QK与V矩阵相乘