diff --git a/人人都能看懂的Transformer/第一章——Transformer网络架构.md b/人人都能看懂的Transformer/第一章——Transformer网络架构.md
index 9445565..8077b9f 100644
--- a/人人都能看懂的Transformer/第一章——Transformer网络架构.md
+++ b/人人都能看懂的Transformer/第一章——Transformer网络架构.md
@@ -153,15 +153,31 @@ Add & Norm的过程可以理解为相同位置元素相加，再做层归一化
 ```
 {
     "is": 0.10,
-    "the": 0.05,
-    "a": 0.03,
+    "the": -0.05,
+    "a": 2.03,
     ...
-    "learning": 0.07,
+    "learning": -0.07,
     ...
 }
 ```
 
-如果是预测下一个句子，通常会采用一种称为“自回归语言生成”的方法，在这种方法中，模型会一次生成一个词，然后将生成的词作为下一个预测的上下文的一部分。这个过程会重复进行，直到生成一个终止符号（如句号或特殊的结束标记），或者达到预设的最大长度限制。中间阶段的展示一般如下：
+但上面输出的是文字的值，如果我们以最高值作为下个词的输出，还需要将它们统一到一个数值区间。
+
+
+
+### 转换成百分比概率
+
+> WHY：转化到0-1区间，便于比较（同维度）和处理。将注意力分数转换为概率分布。
+
+<img src="../assets/image-20240503172341945.png" alt="image-20240503172341945" style="zoom:50%;" />
+
+可以简单理解为，将前面线形层输出的值，转化成0-1的概率分布区间进行输出。
+
+
+
+### 合并成一个句子
+
+上面将的都是输出一个词，如果是预测下一个句子，通常会采用一种称为“自回归语言生成”的方法，在这种方法中，模型会一次生成一个词，然后将生成的词作为下一个预测的上下文的一部分。这个过程会重复进行，直到生成一个终止符号（如句号或特殊的结束标记），或者达到预设的最大长度限制。中间阶段的展示一般如下：
 
 ~~~
 [
@@ -185,14 +201,4 @@ Add & Norm的过程可以理解为相同位置元素相加，再做层归一化
 
 
 
-### 转换成百分比概率
-
-> WHY：归一化到0-1区间，便于比较和处理。将注意力分数转换为概率分布。
-
-<img src="../assets/image-20240503172341945.png" alt="image-20240503172341945" style="zoom:50%;" />
-
-可以简单理解为，前面输出的概率，会被转化成0-1的区间进行输出。
-
-
-
 至此，你已经对整个Transformer有的整体了解，我们已经是熟悉transformer的人了🎉🎉🎉