@ -142,7 +142,7 @@ Multi-Head架构图如下
- 连接:基本的残差连接方式![1609746694985](assets/1609746694985.png)
> 残差连接:X如果处理完残差变小,则使用该X,如果残差反而大了,则使用原有的X。也就是堆叠的层数中,我们保证了堆叠的过程中,结果一定不会比原来差。
> 残差连接:残差X与输出的X相加(同位元素相加)。原理等同于让输出的结果不会离一开始太远,总是在一个可控的范围内变化