diff --git a/.DS_Store b/.DS_Store index 74ce646..ecd16fa 100644 Binary files a/.DS_Store and b/.DS_Store differ diff --git a/assets/.DS_Store b/assets/.DS_Store index 41951e6..3feef0e 100644 Binary files a/assets/.DS_Store and b/assets/.DS_Store differ diff --git a/人人都能看懂的Transformer/第一章——Transformer网络架构.md b/人人都能看懂的Transformer/第一章——Transformer网络架构.md index e410b93..e84acb6 100644 --- a/人人都能看懂的Transformer/第一章——Transformer网络架构.md +++ b/人人都能看懂的Transformer/第一章——Transformer网络架构.md @@ -3,6 +3,8 @@ ### 总体架构图 > 这个阶段主要是有个大概认识,你可能会觉得模糊或不能理解的,后面会对每个模块进行详解,也欢迎给我留issue探讨。 +> +> [论文地址](https://arxiv.org/pdf/1706.03762) 总体架构图 @@ -33,7 +35,7 @@ 根据我们上面了解到的,不同的部分其实可以针对不同的任务。 - BERT(Bidirectional Encoder Representations from Transformers)是只使用了编码器(Encoder)的模型,一般用于抽样式问答 或者 做命名实体识别,如从给定的文本段落中找到并提取出回答问题的文本片段。目标是识别或检索信息,而不是生成新的文本序列。 -- GPT(Generative Pretrained Transformer)是只使用了解码器的模型,被设计用于生成文本。但是里面的Mask改成了因果masking(causal masking),即不像原始那样隐藏一句话中的某个词,而是它只能看到前面的词,而不能看到后面的。 +- GPT(Generative Pretrained Transformer)是只使用了解码器的模型,被设计用于生成文本。但是里面的Mask改成了因果masking(causal masking),即不像原始那样隐藏一句话中的某个词,而是它只能看到前面的词,而不能看到后面的。[GPT-2源码地址](https://github.com/openai/gpt-2) - 机器翻译,则需要编码器处理源语言文本,解码器生成目标语言文本。即整个Transofmer。 当你更加深入理解模型,你也能创造出更多的可能性。