@ -139,7 +139,7 @@ $$
### QKV多头机制
上面我们看到单个头的是[4, 16, 768],前面我们也一直提到QKV的多头机制,如果按照GPT里的12头(Transformer原文是4头),那么会这么切分,如下图:
上面我们看到单个头的是[4, 16, 768],前面我们也一直提到QKV的多头机制,如果按照GPT里的12头(Transformer原文中并没有规定是多少头),那么会这么切分,如下图:
<img src="../assets/image-20240502134443646.png" alt="image-20240502134443646" style="zoom:50%;" />