|
|
|
@ -7,9 +7,9 @@
|
|
|
|
|
![1609724393950](assets/1609724393950.png)
|
|
|
|
|
|
|
|
|
|
- 训练速度:无法加速训练,并行等
|
|
|
|
|
- Self-Attention机制(注意力),一段话中,不是每个词都重要,我们只需要关注重要的部分。如:下班后我们一起去吃饭吧,我听说有家面馆挺好吃的,我请客。是不是对于听的人来说主要是“我请客”。
|
|
|
|
|
- Self-Attention机制(注意力),一段话中,不是每个词都重要,我们只需要关注重要的部分。如:等下我们把这些活干完,下班后我们一起去吃饭吧,我请客。是不是对于听的人来说主要是“一起吃饭,我请客”。
|
|
|
|
|
|
|
|
|
|
- word2vec:训练好词向量就永久不变了,不同的语境相同的词相同的向量,但这合理吗?就想我们在生气的时候说傻子,很开心的时候说傻子,意思是完全不一样的,
|
|
|
|
|
- word2vec:训练好词向量就永久不变了,不同的语境相同的词相同的向量,但这合理吗?就想我们在生气的时候说的傻子,和开心的时候说傻子,意思是完全不一样的,
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
@ -188,7 +188,7 @@ Multi-Head架构图如下
|
|
|
|
|
- Linear:得到所有的编码,Linear成向量;
|
|
|
|
|
- Softmax:将向量进行分类;
|
|
|
|
|
|
|
|
|
|
这就是Transformer的整体结构。而Transformer和BERT的关系是
|
|
|
|
|
这就是Transformer的整体结构。而Transformer和BERT的关系是...,我们接着往下看
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|