Add. Effection of Multi/head

pull/2/head
benjas 5 years ago
parent 24bda20433
commit e927e97bc1

Binary file not shown.

After

Width:  |  Height:  |  Size: 53 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 178 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 68 KiB

@ -95,3 +95,28 @@
这样第一个词就编码完成后面的第二、第N个词也是如此操作。
总结Attention依靠内积来求得每个词和每个K的得分且并行求。
#### Multi/head的作用
之前卷积中我们利用fillterw来将X映射成更多的特征表达再取最大的进行降维在这里也是同样道理。
![1609744062736](assets/1609744062736.png)
- 通过不同的head得到多个特征表达
- 将所有特征拼接在一起
- 可以通过再一层全连接来降维
Multi-Head架构图如下
![1609744624147](assets/1609744624147.png)
> 不同的注意力结果,得到的特征向量表达也是不同的。
堆叠多层:
![1609744714101](assets/1609744714101.png)
> 由于输入输出都是向量,也就是可以堆叠更多层,计算方法都是相同的,只是增加了多层。

Loading…
Cancel
Save