diff --git a/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md b/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md index e549b14..36dfae5 100644 --- a/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md +++ b/人人都能看懂的Transformer/第四章——多头注意力机制——QK矩阵相乘.md @@ -73,13 +73,13 @@ $$ 那么A、B长度也就是模长,它的作用又是什么呢?可以理解为归一化处理。公式定理可知cosine最终的结果是[-1,+1]区间,我们来求一下,假设我们有两个向量A和B: -image-20240523102514832 +image-20240523102514832 -image-20240523102627330 +image-20240523102627330 计算表明,两个向量的余弦相似度为 1,这意味着它们的方向完全相同。也就是模长是把数值归一化到[-1,+1]区间,那么如果我直接点积相乘,然后再进行归一化是不是也可以呢?亦或者我们进行一次数值缩放呢?再回头看下我们的图 -image-20240523103216329 +image-20240523103216329 注意两个红框,QK矩阵相乘后进行数值缩放,而结果A在输出后,也进行也一次数值缩放。也就是**矩阵相乘后进行数值缩放** 等同于 **余弦公式结果** 等同于 **求得多个元素间的相似度** 等同于 **自注意力机制**