Update. 索引向量化

2 years ago · a9567ffaef
parent 037814ce21
commit a9567ffaef
1 changed files with 8 additions and 1 deletions
--- a/人人都能看懂的Transformer/第二章——文字向量化.md
+++ b/人人都能看懂的Transformer/第二章——文字向量化.md
@ -100,4 +100,11 @@ torch.Size([1, 4, 768])

 <img src="../assets/image-20240426174122893.png" alt="image-20240426174122893" style="zoom:50%;" />

-可以看到最终维度是转成了768列，4行。也就对应着4个索引，和GPT2的嵌入向量维度768
+可以看到最终维度是转成了768列，4行。也就对应着4个索引，和GPT2的嵌入向量维度768。
+
+注意，上面的模型是已经预训练好了，我们可以进行微调或从头开始训练，那应该怎么做呢？这里我们就涉及从0训练Tokenizer和从0训练Model，下面我们来演示从0开始训练。
+
+
+
+从0开始Tokenizer
+