Add. 前言

master
ben.guo 6 months ago
parent 2f70593fe0
commit 95bff73b15

@ -2,6 +2,10 @@
<img src="../assets/image-20240421205946626.png" alt="文字向量化" style="zoom: 50%;" />
### 前言
第一章我们讲到机器是无法识别文字的需要将文字转成数值。文字向量化的方法有很多GPT使用的是标准的词嵌入word embeddings算法具体来说是使用了一个嵌入矩阵来实现这一转换。
在传给Transformer前文本会先通过tokenizer分词器将原始文本分割成词汇单元tokens这些词汇单元对应于模型词汇表中的索引。然后这些索引会被转换成模型能够处理的输入序列。
### 文字转索引

Loading…
Cancel
Save