Add. Effect of Self-Attention

5 years ago · 21c9f39bc6
parent e5c4ebb43e
commit 21c9f39bc6
3 changed files with 24 additions and 1 deletions
--- a/NLP通用框架BERT项目实战/NLP通用框架BERT原理解读.md
+++ b/NLP通用框架BERT项目实战/NLP通用框架BERT原理解读.md
@ -9,4 +9,27 @@
 - 训练速度：无法加速训练，并行等
 - Self-Attention机制（注意力），一段话中，不是每个词都重要，我们只需要关注重要的部分。如：下班后我们一起去吃饭吧，我听说有家面馆挺好吃的，我请客。是不是对于听的人来说主要是“我请客”。

- word2vec：训练好词向量就永久不变了，不同的语境相同的词相同的向量，但这合理吗？就想我们在生气的时候说傻子，很开心的时候说傻子，意思是完全不一样的，
+- word2vec：训练好词向量就永久不变了，不同的语境相同的词相同的向量，但这合理吗？就想我们在生气的时候说傻子，很开心的时候说傻子，意思是完全不一样的，
+
+
+
+#### Transformer整体架构如下
+
+![1609725400828](assets/1609725400828.png)
+
+#### 注意力机制的作用
+
+- 对于输入的数据，我们的关注点是什么？
+- 如何才能让计算机关注到这些有价值的信息？
+
+![1609725559431](assets/1609725559431.png)
+
+> 如上，传入一段文本，如果我们没有强调注意什么，那么词向量结果可能是平行的，如果我们强调“eating”，那么“eating”这个词的词向量就会有所不同。
+
+如果是人为的加权，告诉计算机哪个重要，这显然是不合实际的，应该让计算机自己发现哪些重要。
+
+![1609725763643](assets/1609725763643.png)
+
+> “it”在第一句中是指代“animal”，表示它太累了没有过去。
+>
+> “it”在第二句中指代“street”，表示路太窄了没有过去。
--- a/NLP通用框架BERT项目实战/assets/1609725559431.png
+++ b/NLP通用框架BERT项目实战/assets/1609725559431.png
--- a/NLP通用框架BERT项目实战/assets/1609725763643.png
+++ b/NLP通用框架BERT项目实战/assets/1609725763643.png