From 8cf2a4076e0fc51b8bfb15f1eca920e32cafc7c7 Mon Sep 17 00:00:00 2001 From: "ben.guo" <909336740@qq.com> Date: Mon, 29 Apr 2024 17:10:46 +0800 Subject: [PATCH] =?UTF-8?q?Add.=20=E6=B7=BB=E5=8A=A0=E6=BA=90=E7=A0=81?= =?UTF-8?q?=E5=9C=B0=E5=9D=80?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- .DS_Store | Bin 10244 -> 10244 bytes assets/.DS_Store | Bin 22532 -> 22532 bytes .../第一章——Transformer网络架构.md | 4 +++- 3 files changed, 3 insertions(+), 1 deletion(-) diff --git a/.DS_Store b/.DS_Store index 74ce64615e916fdd5845d857b5e32b0110e57c6c..ecd16fa3dfd594c4e52cb779c5443682b7be246e 100644 GIT binary patch delta 21 ZcmZn(XbITxPL$Df^Lx?%{9sCy2>@jD2wMOE delta 25 bcmZn(XbITxPIU5F0f)_cVh8x4jBAVlkSYpL diff --git a/assets/.DS_Store b/assets/.DS_Store index 41951e65bf7699dab190ff9820082615dc631bf3..3feef0e91b2e99b3dd54befb1f0f1944c78f6ff6 100644 GIT binary patch delta 44 zcmV+{0Mq}3umOay0gz7t*s)N%4*?#t3=pvelTR2NlP?zrvu_ui2(uspkO8v`Ao(|5 CrViKu delta 364 zcmb7=y=nqM6otPj0)Ye~m{bcAgz9ZBoq4`MGz_+*xkSa${D{=5PD5yE0yOS=gSLyLI8Z^xdFJlNv4RRCMOp zlh&dvRCRkzd(4z!YzN(WVrM{~S5guzA)olX5%IxXIF#!1Kp-y=>WhcWocg7TkcHNm zp>Q;ErFqLl<&k219%WiOvIk;qv91~dT`?8bGq|V6NLnN<6>F<6R(yK&eN`te*1A}5 g!`A;h>{CAM`n`BtI@Njnl-$pLZ+_0R3vb^%0POKbWdHyG diff --git a/人人都能看懂的Transformer/第一章——Transformer网络架构.md b/人人都能看懂的Transformer/第一章——Transformer网络架构.md index e410b93..e84acb6 100644 --- a/人人都能看懂的Transformer/第一章——Transformer网络架构.md +++ b/人人都能看懂的Transformer/第一章——Transformer网络架构.md @@ -3,6 +3,8 @@ ### 总体架构图 > 这个阶段主要是有个大概认识,你可能会觉得模糊或不能理解的,后面会对每个模块进行详解,也欢迎给我留issue探讨。 +> +> [论文地址](https://arxiv.org/pdf/1706.03762) 总体架构图 @@ -33,7 +35,7 @@ 根据我们上面了解到的,不同的部分其实可以针对不同的任务。 - BERT(Bidirectional Encoder Representations from Transformers)是只使用了编码器(Encoder)的模型,一般用于抽样式问答 或者 做命名实体识别,如从给定的文本段落中找到并提取出回答问题的文本片段。目标是识别或检索信息,而不是生成新的文本序列。 -- GPT(Generative Pretrained Transformer)是只使用了解码器的模型,被设计用于生成文本。但是里面的Mask改成了因果masking(causal masking),即不像原始那样隐藏一句话中的某个词,而是它只能看到前面的词,而不能看到后面的。 +- GPT(Generative Pretrained Transformer)是只使用了解码器的模型,被设计用于生成文本。但是里面的Mask改成了因果masking(causal masking),即不像原始那样隐藏一句话中的某个词,而是它只能看到前面的词,而不能看到后面的。[GPT-2源码地址](https://github.com/openai/gpt-2) - 机器翻译,则需要编码器处理源语言文本,解码器生成目标语言文本。即整个Transofmer。 当你更加深入理解模型,你也能创造出更多的可能性。