From 8cf2a4076e0fc51b8bfb15f1eca920e32cafc7c7 Mon Sep 17 00:00:00 2001
From: "ben.guo" <909336740@qq.com>
Date: Mon, 29 Apr 2024 17:10:46 +0800
Subject: [PATCH] =?UTF-8?q?Add.=20=E6=B7=BB=E5=8A=A0=E6=BA=90=E7=A0=81?=
 =?UTF-8?q?=E5=9C=B0=E5=9D=80?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 .DS_Store                                     | Bin 10244 -> 10244 bytes
 assets/.DS_Store                              | Bin 22532 -> 22532 bytes
 .../第一章——Transformer网络架构.md |   4 +++-
 3 files changed, 3 insertions(+), 1 deletion(-)
diff --git a/.DS_Store b/.DS_Store
index 74ce64615e916fdd5845d857b5e32b0110e57c6c..ecd16fa3dfd594c4e52cb779c5443682b7be246e 100644
GIT binary patch
delta 21
ZcmZn(XbITxPL$Df^Lx?%{9sCy2>@jD2wMOE

delta 25
bcmZn(XbITxPIU5F0f)_cVh8x4jBAVlkSYpL

diff --git a/assets/.DS_Store b/assets/.DS_Store
index 41951e65bf7699dab190ff9820082615dc631bf3..3feef0e91b2e99b3dd54befb1f0f1944c78f6ff6 100644
GIT binary patch
delta 44
zcmV+{0Mq}3umOay0gz7t*s)N%4*?#t3=pvelTR2NlP?zrvu_ui2(uspkO8v`Ao(|5
CrViKu

delta 364
zcmb7=y=nqM6otPj0)Ye~m{b<oB5hn1{Aq<iEF=j;Q)h)m#l&6Q5wleqA3*R8@&wA3
zK1uQ>cAgz9ZBoq4`MGz_+*xkSa${D{=5PD5yE0yOS=gSLyLI8Z^xdFJlNv4RRCMOp
zlh&dvRCRkzd(4z!YzN(WVrM{~S5guzA)olX5%IxXIF#!1Kp-y=>WhcWocg7TkcHNm
zp>Q;ErFqLl<&k219%WiOvIk;qv91~dT`?8bGq|V6NLnN<6>F<6R(yK&eN`te*1A}5
g!`A;h>{CAM`n`BtI@Njnl-$pLZ+_0R3vb^%0POKbWdHyG

diff --git a/人人都能看懂的Transformer/第一章——Transformer网络架构.md b/人人都能看懂的Transformer/第一章——Transformer网络架构.md
index e410b93..e84acb6 100644
--- a/人人都能看懂的Transformer/第一章——Transformer网络架构.md
+++ b/人人都能看懂的Transformer/第一章——Transformer网络架构.md
@@ -3,6 +3,8 @@
 ### 总体架构图
 
 > 这个阶段主要是有个大概认识，你可能会觉得模糊或不能理解的，后面会对每个模块进行详解，也欢迎给我留issue探讨。
+>
+> [论文地址](https://arxiv.org/pdf/1706.03762)
 
 <img src="../assets/image-20240421134206905.png" alt="总体架构图" style="zoom:50%;" />
 
@@ -33,7 +35,7 @@
 根据我们上面了解到的，不同的部分其实可以针对不同的任务。
 
 - BERT（Bidirectional Encoder Representations from Transformers）是只使用了编码器（Encoder）的模型，一般用于抽样式问答 或者 做命名实体识别，如从给定的文本段落中找到并提取出回答问题的文本片段。目标是识别或检索信息，而不是生成新的文本序列。
-- GPT（Generative Pretrained Transformer）是只使用了解码器的模型，被设计用于生成文本。但是里面的Mask改成了因果masking（causal masking），即不像原始那样隐藏一句话中的某个词，而是它只能看到前面的词，而不能看到后面的。
+- GPT（Generative Pretrained Transformer）是只使用了解码器的模型，被设计用于生成文本。但是里面的Mask改成了因果masking（causal masking），即不像原始那样隐藏一句话中的某个词，而是它只能看到前面的词，而不能看到后面的。[GPT-2源码地址](https://github.com/openai/gpt-2)
 - 机器翻译，则需要编码器处理源语言文本，解码器生成目标语言文本。即整个Transofmer。
 
 当你更加深入理解模型，你也能创造出更多的可能性。