Update. 实际案例

master
ben.guo 1 year ago
parent dbb06eed9e
commit 5d5b429869

@ -4,7 +4,9 @@
在传给Transformer前文本会先通过tokenizer分词器将原始文本分割成词汇单元tokens这些词汇单元对应于模型词汇表中的索引。然后这些索引会被转换成模型能够处理的输入序列。
也就是上面的"LLM with me"会转成4个索引代码如下下面用GPT2做示例因为GPT2是开源的
### 实际案例
前面的"LLM with me"会转成4个索引代码如下下面用GPT2做示例因为GPT2是开源的
~~~python
from transformers import GPT2Tokenizer, GPT2Model

Loading…
Cancel
Save