Add. Effect of Self-Attention

pull/2/head
benjas 4 years ago
parent e5c4ebb43e
commit 21c9f39bc6

@ -9,4 +9,27 @@
- 训练速度:无法加速训练,并行等
- Self-Attention机制注意力一段话中不是每个词都重要我们只需要关注重要的部分。如下班后我们一起去吃饭吧我听说有家面馆挺好吃的我请客。是不是对于听的人来说主要是“我请客”。
- word2vec训练好词向量就永久不变了不同的语境相同的词相同的向量但这合理吗就想我们在生气的时候说傻子很开心的时候说傻子意思是完全不一样的
- word2vec训练好词向量就永久不变了不同的语境相同的词相同的向量但这合理吗就想我们在生气的时候说傻子很开心的时候说傻子意思是完全不一样的
#### Transformer整体架构如下
![1609725400828](assets/1609725400828.png)
#### 注意力机制的作用
- 对于输入的数据,我们的关注点是什么?
- 如何才能让计算机关注到这些有价值的信息?
![1609725559431](assets/1609725559431.png)
> 如上传入一段文本如果我们没有强调注意什么那么词向量结果可能是平行的如果我们强调“eating”那么“eating”这个词的词向量就会有所不同。
如果是人为的加权,告诉计算机哪个重要,这显然是不合实际的,应该让计算机自己发现哪些重要。
![1609725763643](assets/1609725763643.png)
> “it”在第一句中是指代“animal”表示它太累了没有过去。
>
> “it”在第二句中指代“street”表示路太窄了没有过去。

Binary file not shown.

After

Width:  |  Height:  |  Size: 300 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 210 KiB

Loading…
Cancel
Save