diff --git a/assets/image-20240502143837209.png b/assets/image-20240502143837209.png
new file mode 100644
index 0000000..5d1c660
Binary files /dev/null and b/assets/image-20240502143837209.png differ
diff --git a/人人都能看懂的Transformer/第五章——多头注意力机制——全流程.md b/人人都能看懂的Transformer/第五章——多头注意力机制——全流程.md
index 6d48e61..54b7580 100644
--- a/人人都能看懂的Transformer/第五章——多头注意力机制——全流程.md
+++ b/人人都能看懂的Transformer/第五章——多头注意力机制——全流程.md
@@ -38,4 +38,15 @@ $$
 
 
 
-### Mask
+### Mask遮挡
+
+这里讲的是生成型任务如语言模型（例如GPT），Mask遮挡的目的是为了防止模型在预测下一个词时“偷看”到未来的信息。这种技术被称为因果遮挡（Causal Masking）或自回归遮挡。在GPT这样的自回归语言模型中，模型被训练为基于之前的词来预测序列中的下一个词。因此，遮挡确保模型在生成当前词时只能使用它之前的词，而不能使用它之后的词，这符合自然语言的生成过程。
+
+将矩阵的上三角部分（包括对角线）填充为 `-inf`或者0。
+
+<img src="../assets/image-20240502143837209.png" alt="image-20240502143837209" style="zoom:50%;" />
+
+训练的过程中（语言模型场景），是从前往后训练，然后去预测后面的词（句子），所以训练过程中，我们要遮挡一部分，让模型不知道后面的信息，自动去生成然后校验生成与实际之间的差距。
+
+
+