You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
|
|
2 years ago | |
|---|---|---|
| .. | ||
| code | ||
| .DS_Store | ||
| README.md | ||
| 第一章——Transformer网络架构.md | ||
| 第七章——前馈神经网络.md | 2 years ago | |
| 第三章——位置编码.md | ||
| 第二章——文字向量化.md | ||
| 第五章——多头注意力机制——全流程.md | ||
| 第八章——最后的输出.md | ||
| 第六章——数值缩放.md | ||
| 第四章——多头注意力机制——QK矩阵相乘.md | ||
| 训练和推理的区别(选修).md | ||
README.md
README
深度解析Transformer(大模型场景),提供图、代码等,力求每个人都能吃透它。
有疑惑的地方欢迎issue或邮件我,😀Enjoin!
Attention Is All You Need 论文地址