Add. 为什么Transformer(GPT场景)使用这种文字向量化的方式? & 总结

master
ben.guo 1 year ago
parent 95bff73b15
commit 53183ddd4f

@ -410,4 +410,22 @@ LLM with me A:[UNK]iLLwitMimeLMethihitMehw<EOS>
到这我们已经学习了文字向量化的流程以及如何从0开始进行文字向量化。 ### 为什么TransformerGPT场景使用这种文字向量化的方式
1. **处理大规模词汇**自然语言中的词汇量非常庞大直接使用one-hot编码会导致维度过高计算复杂度大。子词分割算法可以有效地减少词汇表的大小同时保留足够的信息。
2. **未知词汇处理**:子词分割算法能够将未见过的词汇分解为已知的子词单元,从而使模型能够处理这些新词汇。
3. **保留语义信息**:通过训练得到的嵌入向量能够捕捉词汇的语义信息,这对于理解和生成自然语言至关重要。
4. **提高模型效率**相比于稀疏的one-hot向量嵌入向量是稠密的这使得模型能够更快地学习和推断。
5. **灵活性和扩展性**:使用子词分割和嵌入矩阵的方法,模型可以轻松地适应不同语言和领域的文本,只需对分词器和嵌入层进行相应的训练即可。
6. **端到端学习**在Transformer模型中嵌入层是模型的一部分可以通过端到端的方式进行训练这意味着嵌入层可以与模型的其他部分协同优化以更好地完成特定的任务。
总的来说GPT和其他基于Transformer的模型使用这种文字向量化的方式是为了有效地处理自然语言的复杂性和多样性同时保证模型的高效性和灵活性。通过这种方法模型能够学习到丰富的语言表示从而在各种NLP任务中取得优异的性能。
### 总结
在GPT和其他基于Transformer的模型中文字向量化是将文本数据转换为模型能够处理的数值形式的关键步骤。这个过程涉及到两个主要部分分词Tokenization和嵌入Embedding
1. **分词Tokenization**原始文本首先通过分词器被分割成词汇单元tokens。GPT使用的分词器通常基于子词分割算法如Byte-Pair Encoding (BPE)。这种方法可以有效地处理大词汇量和未知词汇OOV同时保留了一定的语义信息并提高了模型的效率。
2. **嵌入Embedding**:分词后得到的索引通过嵌入矩阵转换成固定维度的向量。这些向量能够捕捉词汇的语义信息,并作为模型输入的一部分。在模型训练过程中,嵌入层的参数会与其他层一起进行优化,以更好地表示输入数据的特征。
Loading…
Cancel
Save