diff --git a/NLP通用框架BERT项目实战/assets/1609744062736.png b/NLP通用框架BERT项目实战/assets/1609744062736.png new file mode 100644 index 0000000..acbba31 Binary files /dev/null and b/NLP通用框架BERT项目实战/assets/1609744062736.png differ diff --git a/NLP通用框架BERT项目实战/assets/1609744624147.png b/NLP通用框架BERT项目实战/assets/1609744624147.png new file mode 100644 index 0000000..974b082 Binary files /dev/null and b/NLP通用框架BERT项目实战/assets/1609744624147.png differ diff --git a/NLP通用框架BERT项目实战/assets/1609744714101.png b/NLP通用框架BERT项目实战/assets/1609744714101.png new file mode 100644 index 0000000..bd21a35 Binary files /dev/null and b/NLP通用框架BERT项目实战/assets/1609744714101.png differ diff --git a/NLP通用框架BERT项目实战/第一章——NLP通用框架BERT原理解读.md b/NLP通用框架BERT项目实战/第一章——NLP通用框架BERT原理解读.md index 4061056..8e9bce9 100644 --- a/NLP通用框架BERT项目实战/第一章——NLP通用框架BERT原理解读.md +++ b/NLP通用框架BERT项目实战/第一章——NLP通用框架BERT原理解读.md @@ -94,4 +94,29 @@ 这样第一个词就编码完成,后面的第二、第N个词也是如此操作。 -总结:Attention依靠内积来求得每个词和每个K的得分,且并行求。 \ No newline at end of file +总结:Attention依靠内积来求得每个词和每个K的得分,且并行求。 + + + +#### Multi/head的作用 + +之前卷积中,我们利用fillter(w)来将X映射成更多的特征表达,再取最大的进行降维,在这里也是同样道理。 + +![1609744062736](assets/1609744062736.png) + +- 通过不同的head得到多个特征表达 +- 将所有特征拼接在一起 +- 可以通过再一层全连接来降维 + +Multi-Head架构图如下 + +![1609744624147](assets/1609744624147.png) + +> 不同的注意力结果,得到的特征向量表达也是不同的。 + +堆叠多层: + +![1609744714101](assets/1609744714101.png) + +> 由于输入输出都是向量,也就是可以堆叠更多层,计算方法都是相同的,只是增加了多层。 +