docs. 文字向量化 & 位置编码

1 year ago · 4eb56b3f2b
parent 1a2690e8a6
commit 4eb56b3f2b
5 changed files with 7 additions and 4 deletions
--- a/assets/.DS_Store
+++ b/assets/.DS_Store
--- a/assets/image-20240421164147356.png
+++ b/assets/image-20240421164147356.png
--- a/assets/image-20240421164249158.png
+++ b/assets/image-20240421164249158.png
--- a/assets/image-20240421205946626.png
+++ b/assets/image-20240421205946626.png
--- a/人人都能看懂的Transformer/第一章——Transformer网络架构.md
+++ b/人人都能看懂的Transformer/第一章——Transformer网络架构.md
@ -50,12 +50,15 @@
-### 文字向量化
+### 文字向量化 & 位置编码
-![输入向量化](../assets/image-20240421164249158.png)
+![文字向量化](../assets/image-20240421205946626.png)
 > 这里用英文的输入，引文英文输入使用代码更容易理解
 如样本“LLM with me”（大模型和我），通过GPT2Tokenizer转换成索引[3069, 44, 351, 502]，再结合位置信息编码，如[1,2,3]。最终转成向量数据继续传递，通过三个不同的线性变换生产Q、K和V向量，每一份对应一个头，如GPT是12头，则是向量 × 3 × 12 份数据。
-如样本“我在搞懂大模型”，通过某种方法转换成数值后，假设为[12,31,172, ..., 52, 02]，再结合位置信息编码，假设为[1,2,3,4,5,6,7]。结合后通过三个不同的线性变换生产Q、K和V向量，每一份对应一个头，如GPT是12头，则是向量 × 3 × 12 份数据。
+> 你可能好奇，为什么LLM with me会有4个索引，后面会详细解答。另外位置编码不会向1,2,3这么简单的叠加，后面也会详解。
 另外需要注意的是，每个子模块都会叠加N次，如GPT-3就据说叠加了175层。即最终是向量 × 3 × 12 × 175。
 另外需要注意的是，每个子模块都会叠加N次，如GPT-3就据说叠加了175层。即最终是向量 × 3 × 12 × 175。