diff --git a/人人都能看懂的Transformer/第二章——文字向量化.md b/人人都能看懂的Transformer/第二章——文字向量化.md index f55c2ea..1f642f0 100644 --- a/人人都能看懂的Transformer/第二章——文字向量化.md +++ b/人人都能看懂的Transformer/第二章——文字向量化.md @@ -4,7 +4,9 @@ 在传给Transformer前,文本会先通过tokenizer(分词器),将原始文本分割成词汇单元(tokens),这些词汇单元对应于模型词汇表中的索引。然后,这些索引会被转换成模型能够处理的输入序列。 -也就是上面的"LLM with me"会转成4个索引,代码如下(下面用GPT2做示例,因为GPT2是开源的): +### 实际案例 + +前面的"LLM with me"会转成4个索引,代码如下(下面用GPT2做示例,因为GPT2是开源的): ~~~python from transformers import GPT2Tokenizer, GPT2Model