diff --git a/.DS_Store b/.DS_Store index 1fbb0fd..7b781dd 100644 Binary files a/.DS_Store and b/.DS_Store differ diff --git a/人人都能看懂的Transformer/第一章——Transformer网络架构.md b/人人都能看懂的Transformer/第一章——Transformer网络架构.md index 52b60df..f30c44f 100644 --- a/人人都能看懂的Transformer/第一章——Transformer网络架构.md +++ b/人人都能看懂的Transformer/第一章——Transformer网络架构.md @@ -182,3 +182,7 @@ Add & Norm的过程可以理解为相同位置元素相加,再做层归一化 > WHY:归一化到0-1区间,便于比较和处理。将注意力分数转换为概率分布。 可以简单理解为,前面输出的概率,会被转化成0-1的区间进行输出。 + + + +至此,你已经对整个Transformer有的整体了解,我们已经是熟悉transformer的人了🎉🎉🎉