diff --git a/assets/image-20240502150743024.png b/assets/image-20240502150743024.png index 1ec1474..ff100e1 100644 Binary files a/assets/image-20240502150743024.png and b/assets/image-20240502150743024.png differ diff --git a/人人都能看懂的Transformer/第五章——多头注意力机制——全流程.md b/人人都能看懂的Transformer/第五章——多头注意力机制——全流程.md index 93f9734..8c33792 100644 --- a/人人都能看懂的Transformer/第五章——多头注意力机制——全流程.md +++ b/人人都能看懂的Transformer/第五章——多头注意力机制——全流程.md @@ -40,7 +40,7 @@ $$ 这里讲的是生成型任务如语言模型(例如GPT),Mask遮挡的目的是为了防止模型在预测下一个词时“偷看”到未来的信息。这种技术被称为因果遮挡(Causal Masking)或自回归遮挡。在GPT这样的自回归语言模型中,模型被训练为基于之前的词来预测序列中的下一个词。因此,遮挡确保模型在生成当前词时只能使用它之前的词,而不能使用它之后的词,这符合自然语言的生成过程。 -将矩阵的上三角部分(包括对角线)填充为 `-inf`。 +将矩阵的上三角部分填充为 `-inf`。 image-20240502150743024