Add. Calculation method of Self-Attention

pull/2/head
benjas 4 years ago
parent 21c9f39bc6
commit b53d702ce8

@ -32,4 +32,35 @@
> “it”在第一句中是指代“animal”表示它太累了没有过去。
>
> “it”在第二句中指代“street”表示路太窄了没有过去。
> “it”在第二句中指代“street”表示路太窄了没有过去。
>
> 这里关注的是“animal”我们希望即使是第二句“animal”对结果的影响越大。
#### Self-Attention计算
- 输入经过编码后得到的向量。
- 得到当前词语上下文的关系,可以当做是加权。
- 构建三个矩阵分别查询当前词跟其它词的关系,以及特征向量的表达。
如下图:
![1609726549882](assets/1609726549882.png)
> 先转换成向量构建三个矩阵Q、K、V求出来第一个词编码的时候怎么找到上下文。右边的W就是权重。
这三个矩阵具体做什么:
- Q: query要去查询的
- K: key等着被查的
- V: value实际的特征信息
![1609726848038](assets/1609726848038.png)
> X是输入内容结果W后形成Q、K、V不同矩阵的特征向量。
![1609730605624](assets/1609730605624.png)
> q与k的内积表示有多匹配如果Xa与Xb之间无关的时候那么其在坐标系上的表示是垂直的如果有关系则非垂直则有夹角有内积相关性越大则夹角越小内积越大。

Binary file not shown.

Before

Width:  |  Height:  |  Size: 300 KiB

After

Width:  |  Height:  |  Size: 116 KiB

Binary file not shown.

Before

Width:  |  Height:  |  Size: 210 KiB

After

Width:  |  Height:  |  Size: 69 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 47 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 39 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 46 KiB

Loading…
Cancel
Save