@ -4,7 +4,9 @@
在传给Transformer前,文本会先通过tokenizer(分词器),将原始文本分割成词汇单元(tokens),这些词汇单元对应于模型词汇表中的索引。然后,这些索引会被转换成模型能够处理的输入序列。
也就是上面的"LLM with me"会转成4个索引,代码如下(下面用GPT2做示例,因为GPT2是开源的):
### 实际案例
前面的"LLM with me"会转成4个索引,代码如下(下面用GPT2做示例,因为GPT2是开源的):
~~~python
from transformers import GPT2Tokenizer, GPT2Model