@ -2,6 +2,10 @@
<img src="../assets/image-20240421205946626.png" alt="文字向量化" style="zoom: 50%;" />
### 前言
第一章我们讲到,机器是无法识别文字的,需要将文字转成数值。文字向量化的方法有很多,GPT使用的是标准的词嵌入(word embeddings)算法,具体来说,是使用了一个嵌入矩阵来实现这一转换。
在传给Transformer前,文本会先通过tokenizer(分词器),将原始文本分割成词汇单元(tokens),这些词汇单元对应于模型词汇表中的索引。然后,这些索引会被转换成模型能够处理的输入序列。
### 文字转索引