Add. Transformer Architecture

pull/2/head
benjas 5 years ago
parent 71453ca031
commit 89ff06d886

Binary file not shown.

After

Width:  |  Height:  |  Size: 107 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 56 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 129 KiB

@ -144,3 +144,49 @@ Multi-Head架构图如下
> 残差连接X如果处理完残差变小则使用该X如果残差反而大了则使用原有的X。也就是堆叠的层数中我们保证了堆叠的过程中结果一定不会比原来差。
#### Decoder
- Attention计算不同只需要用Q去查encode的K,V即可
- 加入MASK机制遮挡部分值不使用它比如内积会将每个相乘相加而在计算内积的过程不能让它知道全部信息比如下面的I am a student遮挡掉student否则相当于透题。
![1609748548046](assets/1609748548046.png)
最终输出结果
- 得到最终预测结果
- 损失函数cross-entropy即可
![1609748796629](assets/1609748796629.png)
#### Transformer整体架构
- Self-Attention
- Multi-Head
- 多层堆叠,位置编码
- 并行加速训练
![1609748883096](assets/1609748883096.png)
**Encode端**
- input输入X1、X2、...、Xn
- 初始化:初始化词编码,先随机出词的编码再进行调整,但现在一般使用预训练好的模型,也就是没有了这个步骤;
- Positional Encoding加入位置编码
- NxN层堆叠Self-Attention
- Multi-Head多头Self-Attention
- 残差连接:随着堆叠层数,可能结果会变差,残差连接则能保证学习至少不比原来差;
**Decode端**
- MASK机制遮挡掉部分不使用后面的结果
- 获取K,V的结果
- NxN层堆叠
- Linear得到所有的编码Linear成向量
- Softmax将向量进行分类
这就是Transformer的整体结构。

Loading…
Cancel
Save