欢迎来到马士兵代码仓库
Sign In
msb-public-java
/
AiLearning-Theory-Applying
mirror of https://github.com/ben1234560/AiLearning-Theory-Applying
2
6
Code Issues Projects Releases Wiki Activity
You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
master
Branches Tags
${ item.name }
Create tag ${ searchTerm }
Create branch ${ searchTerm }
from 'master'
${ noResults }
AiLearning-Theory-Applying/人人都能看懂的Transformer
History
ben.guo df252a9622
Update. Shorten URL length
2 years ago
..
code
…
.DS_Store
…
README.md
…
第一章——Transformer网络架构.md
…
第七章——前馈神经网络.md Update. Shorten URL length 2 years ago
第三章——位置编码.md
…
第二章——文字向量化.md
…
第五章——多头注意力机制——全流程.md
…
第八章——最后的输出.md
…
第六章——数值缩放.md
…
第四章——多头注意力机制——QK矩阵相乘.md
…
训练和推理的区别(选修).md
…

README.md
Unescape Escape

README

深度解析Transformer(大模型场景),提供图、代码等,力求每个人都能吃透它。

有疑惑的地方欢迎issue或邮件我,😀Enjoin!

Attention Is All You Need 论文地址

GPT-2 官方代码

动态图解 nanoGPT

学习章节:

  • 人人都能看懂的Transformer
    • 第一章——Transformer网络架构
    • 第二章——文字向量化
    • 第三章——位置编码
    • 第四章——多头注意力机制——QK矩阵相乘
    • 第五章——多头注意力机制——全流程
    • 第六章——数值缩放
    • 第七章——前馈神经网络
    • 第八章——最后的输出