Add. Position encoding and multilayer stacking

pull/2/head
benjas 5 years ago
parent e927e97bc1
commit 71453ca031

Binary file not shown.

After

Width:  |  Height:  |  Size: 65 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 169 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 40 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 26 KiB

@ -120,3 +120,27 @@ Multi-Head架构图如下
> 由于输入输出都是向量,也就是可以堆叠更多层,计算方法都是相同的,只是增加了多层。 > 由于输入输出都是向量,也就是可以堆叠更多层,计算方法都是相同的,只是增加了多层。
#### 位置编码与多层堆叠
> 位置信息在self-attention中每个词都会考虑整个序列的加权所以其出现位置并不会对结果产生什么影响相当于放哪都无所谓但是这跟实际就有些不符合了我们希望模型能对位置有额外的认识。
![1609746327202](assets/1609746327202.png)
> POSITIONAL ENCODING将余弦和正弦的周期表达信号当作位置信息。
**Add与Normalize**
![1609746644923](assets/1609746644923.png)
- 归一化:![1609746664324](assets/1609746664324.png)
> Batch Size将其一行让其均值为0标准差为1
>
> Layer让其一列变成均值为0标准差为1
- 连接:基本的残差连接方式![1609746694985](assets/1609746694985.png)
> 残差连接X如果处理完残差变小则使用该X如果残差反而大了则使用原有的X。也就是堆叠的层数中我们保证了堆叠的过程中结果一定不会比原来差。

Loading…
Cancel
Save