diff --git a/人人都能看懂的Transformer/第一章——Transformer网络架构.md b/人人都能看懂的Transformer/第一章——Transformer网络架构.md
index 5e07fca..52b60df 100644
--- a/人人都能看懂的Transformer/第一章——Transformer网络架构.md
+++ b/人人都能看懂的Transformer/第一章——Transformer网络架构.md
@@ -140,7 +140,7 @@ Add & Norm的过程可以理解为相同位置元素相加，再做层归一化
 
 > 机器人对话场景（如GPT）
 
-如果训练阶段我们的总文本词汇是3个。预测阶段输入"LLM with me"，那么对于"LLM with me"中的每个标记，线性层将输出一个长度为3的向量。如果训练阶段的总文本词汇是10,000个，那么输出的则是10,000的向量（可以理解为概率）。预测下一个字，就是找出向量矩阵中概率最高的对应的文字。如"LLM with me"的下一个词的概率，一般展示如下：
+如果训练阶段我们的总文本词汇是3个，最终会训练成3个词的向量队列。预测阶段输入"LLM with me"，那么对于"LLM with me"中的每个标记，线性层将输出一个长度为3的向量。如果训练阶段的总文本词汇是10,000个，最终会训练成10,000个词的向量队列，那么输出的则是10,000的向量（可以理解为概率）。预测下一个字，就是找出向量矩阵中概率最高的对应的文字。如"LLM with me"的下一个词的概率，一般展示如下：
 
 ```
 {
@@ -177,3 +177,8 @@ Add & Norm的过程可以理解为相同位置元素相加，再做层归一化
 
 
 
+### 转换成百分比概率
+
+> WHY：归一化到0-1区间，便于比较和处理。将注意力分数转换为概率分布。
+
+可以简单理解为，前面输出的概率，会被转化成0-1的区间进行输出。