Update. 增加文字向量化 & 位置编码部分解释

6 months ago · 8fa0706659
parent 64bd461b02
commit 8fa0706659
1 changed files with 2 additions and 0 deletions
--- a/人人都能看懂的Transformer/第一章——Transformer网络架构.md
+++ b/人人都能看懂的Transformer/第一章——Transformer网络架构.md
@ -71,6 +71,8 @@
 如样本“LLM with me”（大模型和我），通过GPT2Tokenizer转换成索引[3069, 44, 351, 502]，转成向量后再结合位置信息编码，如[1,2,3]。继续向上传递。

 > 你可能好奇，为什么LLM with me明明是3个词会有4个索引，后面会详细解答，并提供代码。另外位置编码不会向1,2,3这么简单的叠加，后面也会详解。
+>
+> 768是嵌入向量的维度，这是GPT-2模型的一个特定参数。每个嵌入向量的维度是模型设计时确定的，并且在整个模型中保持一致。