From 479d59d240c12be4d72e8d0643a83d3fd2af0a29 Mon Sep 17 00:00:00 2001
From: "ben.guo" <909336740@qq.com>
Date: Thu, 25 Apr 2024 11:52:26 +0800
Subject: [PATCH] =?UTF-8?q?Update.=20=E7=89=B9=E5=BE=81=E5=8F=98=E6=8D=A2?=
 =?UTF-8?q?=E6=98=A0=E5=B0=84=EF=BC=88=E5=85=A8=E6=95=B0=E5=AD=97=E5=88=97?=
 =?UTF-8?q?=E8=A1=A8=EF=BC=89?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 .../第一章——Transformer网络架构.md            | 9 +++++++--
 1 file changed, 7 insertions(+), 2 deletions(-)

diff --git a/人人都能看懂的Transformer/第一章——Transformer网络架构.md b/人人都能看懂的Transformer/第一章——Transformer网络架构.md
index ac87ed9..5e07fca 100644
--- a/人人都能看懂的Transformer/第一章——Transformer网络架构.md
+++ b/人人都能看懂的Transformer/第一章——Transformer网络架构.md
@@ -136,9 +136,11 @@ Add & Norm的过程可以理解为相同位置元素相加，再做层归一化
 
 > Linear
 
-前面数据经过最后一次缩放后，线形变换用于将模型的内部表示转换为最终输出，通常是一个预测任务，如语言模型中的下一个词（话）预测。
+前面数据经过最后一次缩放后，线形变换用于前者的输出，映射到一个词汇表大小的向量上，并选举出最大可能性的词或句子作为最终输出
 
-里面包含着我们输入的文字，如果是3个，就会有3个字的列表（1万个字就是1万个字的列表），每个字都有一个概率。预测下一个字，就是找出3个字里概率最高的。当然训练过程肯定不止3个字，如GPT就有xxx个字，那么"LLM with me"的下一个词的概率，一般展示如下：
+> 机器人对话场景（如GPT）
+
+如果训练阶段我们的总文本词汇是3个。预测阶段输入"LLM with me"，那么对于"LLM with me"中的每个标记，线性层将输出一个长度为3的向量。如果训练阶段的总文本词汇是10,000个，那么输出的则是10,000的向量（可以理解为概率）。预测下一个字，就是找出向量矩阵中概率最高的对应的文字。如"LLM with me"的下一个词的概率，一般展示如下：
 
 ```
 {
@@ -172,3 +174,6 @@ Add & Norm的过程可以理解为相同位置元素相加，再做层归一化
     ...
 ]
 ~~~
+
+
+