diff --git a/assets/image-20240424171227926.png b/assets/image-20240424171227926.png
new file mode 100644
index 0000000..b99b316
Binary files /dev/null and b/assets/image-20240424171227926.png differ
diff --git a/人人都能看懂的Transformer/第一章——Transformer网络架构.md b/人人都能看懂的Transformer/第一章——Transformer网络架构.md
index d9984b9..0305c8b 100644
--- a/人人都能看懂的Transformer/第一章——Transformer网络架构.md
+++ b/人人都能看懂的Transformer/第一章——Transformer网络架构.md
@@ -98,7 +98,7 @@
 
 将语义关系学习里输出的矩阵，加上残差（输入语义关系学习）前的向量，再进行值的统一缩放，大部分情况下是缩放到[-1,1]区间。
 
-<img src="../assets/image-20240423093444733.png" alt="数值缩放" style="zoom:50%;" />
+![数值缩放](../assets/image-20240424171227926.png)
 
 Add & Norm的过程可以理解为相同位置元素相加，再做层归一化（Layer Normalization），即如果残差连接的A矩阵是3维的，多头注意力输出的B矩阵也会是3维的，而且两者一定是同Size，即A矩阵是(None, 4, 768)，B矩阵肯定也是(None, 4, 768)，两者同位置的如`A[i][j][k]=0.1`，`B[i][j][k]=0.2`，则相加是0.3，再去进行归一化。层归一化后面我们会详解。