docs. 文字向量化 & 位置编码

master
ben.guo 1 year ago
parent 1a2690e8a6
commit 4eb56b3f2b

BIN
assets/.DS_Store vendored

Binary file not shown.

Binary file not shown.

Before

Width:  |  Height:  |  Size: 154 KiB

Binary file not shown.

Before

Width:  |  Height:  |  Size: 153 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 153 KiB

@ -50,12 +50,15 @@
### 文字向量化 ### 文字向量化 & 位置编码
![输入向量化](../assets/image-20240421164249158.png) ![文字向量化](../assets/image-20240421205946626.png)
> 这里用英文的输入,引文英文输入使用代码更容易理解
如样本“LLM with me”大模型和我通过GPT2Tokenizer转换成索引[3069, 44, 351, 502],再结合位置信息编码,如[1,2,3]。最终转成向量数据继续传递通过三个不同的线性变换生产Q、K和V向量每一份对应一个头如GPT是12头则是向量 × 3 × 12 份数据。
如样本“我在搞懂大模型”,通过某种方法转换成数值后,假设为[12,31,172, ..., 52, 02],再结合位置信息编码,假设为[1,2,3,4,5,6,7]。结合后通过三个不同的线性变换生产Q、K和V向量每一份对应一个头如GPT是12头则是向量 × 3 × 12 份数据。 > 你可能好奇为什么LLM with me会有4个索引后面会详细解答。另外位置编码不会向1,2,3这么简单的叠加后面也会详解。
另外需要注意的是每个子模块都会叠加N次如GPT-3就据说叠加了175层。即最终是向量 × 3 × 12 × 175。
另外需要注意的是每个子模块都会叠加N次如GPT-3就据说叠加了175层。即最终是向量 × 3 × 12 × 175。
Loading…
Cancel
Save