fix. 修改错别字

master
ben.guo 6 months ago
parent c5f8939a4a
commit aa7028e5ff

@ -6,7 +6,7 @@
<img src="../assets/image-20240421134206905.png" alt="总体架构图" style="zoom:50%;" />
> WHAT自注意力机制模型顾名思义它能够自己找到不同位置的依赖关系。如在序列的任何位置直接计算出其他位置的依赖关系从而有效捕捉长距离依赖。以及位置编码等关键组成。
> WHAT自注意力机制模型顾名思义它能够自己找到不同位置的依赖关系。如在序列的任何位置直接计算出其他位置的依赖关系,从而有效捕捉长距离依赖。以及位置编码等关键组成。
>
> WHY相比前一代主流的RNN/LSTM它可以并行化意味着它能够提供非常好的用户体验逐渐能够走向大众视野。能较好处理长距离依赖。效果上也是当时多个任务上的最佳性能。
@ -48,9 +48,9 @@
<img src="../assets/image-20240421161038387.png" alt="汉化decoder" style="zoom:50%;" />
通过上面的英文转中文,大家应该也能理解大致意思,也就是文字会向量化 加上 位置信息编码,输入到多头注意力机制里,去学习语义关系,通过数值缩放再到神经网络层。数值缩放后被线性映射,最后输出成百分比概率。
通过上面的英文转中文,大家应该也能理解大致意思,也就是文字会向量化 加上 位置信息编码,输入到多头注意力机制里,去学习语义关系,通过数值缩放再到神经网络层。数值缩放后被线性映射,最后输出成百分比概率,概率越大的就越可能是最终预测输出的文字
其中左侧的线非主线则是残差连接借鉴Resent。残差连接用以解决梯度消失/爆炸,和保留原始信息;
其中左侧的线非主线则是残差连接借鉴Resnet。残差连接用以解决梯度消失/爆炸,和保留原始信息;
下面我们以简单讲述,来走一遍全部流程,后续章节再进行更深入的讲解。

Loading…
Cancel
Save