From 5d5b4298691003d47f709bcdd819bc39599f4d12 Mon Sep 17 00:00:00 2001 From: "ben.guo" <909336740@qq.com> Date: Fri, 26 Apr 2024 16:50:09 +0800 Subject: [PATCH] =?UTF-8?q?Update.=20=E5=AE=9E=E9=99=85=E6=A1=88=E4=BE=8B?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- .../第二章——文字向量化.md | 4 +++- 1 file changed, 3 insertions(+), 1 deletion(-) diff --git a/人人都能看懂的Transformer/第二章——文字向量化.md b/人人都能看懂的Transformer/第二章——文字向量化.md index f55c2ea..1f642f0 100644 --- a/人人都能看懂的Transformer/第二章——文字向量化.md +++ b/人人都能看懂的Transformer/第二章——文字向量化.md @@ -4,7 +4,9 @@ 在传给Transformer前,文本会先通过tokenizer(分词器),将原始文本分割成词汇单元(tokens),这些词汇单元对应于模型词汇表中的索引。然后,这些索引会被转换成模型能够处理的输入序列。 -也就是上面的"LLM with me"会转成4个索引,代码如下(下面用GPT2做示例,因为GPT2是开源的): +### 实际案例 + +前面的"LLM with me"会转成4个索引,代码如下(下面用GPT2做示例,因为GPT2是开源的): ~~~python from transformers import GPT2Tokenizer, GPT2Model