diff --git a/NLP通用框架BERT项目实战/assets/1609744062736.png b/NLP通用框架BERT项目实战/assets/1609744062736.png
new file mode 100644
index 0000000..acbba31
Binary files /dev/null and b/NLP通用框架BERT项目实战/assets/1609744062736.png differ
diff --git a/NLP通用框架BERT项目实战/assets/1609744624147.png b/NLP通用框架BERT项目实战/assets/1609744624147.png
new file mode 100644
index 0000000..974b082
Binary files /dev/null and b/NLP通用框架BERT项目实战/assets/1609744624147.png differ
diff --git a/NLP通用框架BERT项目实战/assets/1609744714101.png b/NLP通用框架BERT项目实战/assets/1609744714101.png
new file mode 100644
index 0000000..bd21a35
Binary files /dev/null and b/NLP通用框架BERT项目实战/assets/1609744714101.png differ
diff --git a/NLP通用框架BERT项目实战/第一章——NLP通用框架BERT原理解读.md b/NLP通用框架BERT项目实战/第一章——NLP通用框架BERT原理解读.md
index 4061056..8e9bce9 100644
--- a/NLP通用框架BERT项目实战/第一章——NLP通用框架BERT原理解读.md
+++ b/NLP通用框架BERT项目实战/第一章——NLP通用框架BERT原理解读.md
@@ -94,4 +94,29 @@
 
 这样第一个词就编码完成，后面的第二、第N个词也是如此操作。
 
-总结：Attention依靠内积来求得每个词和每个K的得分，且并行求。
\ No newline at end of file
+总结：Attention依靠内积来求得每个词和每个K的得分，且并行求。
+
+
+
+#### Multi/head的作用
+
+之前卷积中，我们利用fillter（w）来将X映射成更多的特征表达，再取最大的进行降维，在这里也是同样道理。
+
+![1609744062736](assets/1609744062736.png)
+
+- 通过不同的head得到多个特征表达
+- 将所有特征拼接在一起
+- 可以通过再一层全连接来降维
+
+Multi-Head架构图如下
+
+![1609744624147](assets/1609744624147.png)
+
+> 不同的注意力结果，得到的特征向量表达也是不同的。
+
+堆叠多层：
+
+![1609744714101](assets/1609744714101.png)
+
+> 由于输入输出都是向量，也就是可以堆叠更多层，计算方法都是相同的，只是增加了多层。
+