You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

8.0 KiB

第一章——NLP通用框架BERT原理解读

传统解决方案遇到的问题

传统的RNN网络

1609724393950

  • 训练速度:无法加速训练,并行等

  • Self-Attention机制注意力一段话中不是每个词都重要我们只需要关注重要的部分。如等下我们把这些活干完下班后我们一起去吃饭吧我请客。是不是对于听的人来说主要是“一起吃饭我请客”。

  • word2vec训练好词向量就永久不变了不同的语境相同的词相同的向量但这合理吗就想我们在生气的时候说的傻子和开心的时候说傻子意思是完全不一样的

Transformer整体架构如下

1609725400828

注意力机制的作用

  • 对于输入的数据,我们的关注点是什么?
  • 如何才能让计算机关注到这些有价值的信息?

1609725559431

如上传入一段文本如果我们没有强调注意什么那么词向量结果可能是平行的如果我们强调“eating”那么“eating”这个词的词向量就会有所不同。

如果是人为的加权,告诉计算机哪个重要,这显然是不合实际的,应该让计算机自己发现哪些重要。

1609725763643

“it”在第一句中是指代“animal”表示它太累了没有过去。

“it”在第二句中指代“street”表示路太窄了没有过去。

这里关注的是“animal”我们希望即使是第二句“animal”对结果的影响越大。

Self-Attention计算

  • 输入经过编码后得到的向量。
  • 得到当前词语上下文的关系,可以当做是加权。
  • 构建三个矩阵分别查询当前词跟其它词的关系,以及特征向量的表达。

如下图:

1609726549882

先转换成向量构建三个矩阵Q、K、V求出来第一个词编码的时候怎么找到上下文。右边的W就是权重。

这三个矩阵具体做什么:

  • Q: query要去查询的
  • K: key等着被查的
  • V: value实际的特征信息

1609726848038

X是输入内容结果W后形成Q、K、V不同矩阵的特征向量。

1609730605624

q与k的内积表示有多匹配如果Xa与Xb之间无关的时候那么其在坐标系上的表示是垂直的如果有关系则非垂直则有夹角有内积相关性越大则夹角越小内积越大。

特征分配与softmax机制

  • 最终的的得分值经过softmax就是最终上下文结果1609740821963

    加上dk是因为计算内积会因为向量维度越长向量维度越大越大影响就越大影响不应该根据维度的长宽改变所以应该除掉向量维度的影响。softemax的计算不理解的可以跳转到深度学习入门第一章

  • Scaled Dot-Product Attention 不能让分值随着向量维度的增大而增加1609740873866

这样就能计算出来了结果这个就是Self-Attention机制内积大的就重要小的就不重要。

每个词的Q会跟整个序列中每个K计算得分然后基于得分再分配特征

1609741335355

这样就解决了word2vec训练完后词向量不变的问题每次都跟其它组合项进行计算从而改变权重和词向量。

再看一遍整体流程

1609741519667

  • input~Score每个词的Q会跟每个K计算得分。
  • Divide by dk除掉维度的影响。
  • Softmax得到最大的概率值。
  • Softmax × Value求得词向量的编码。

这样第一个词就编码完成后面的第二、第N个词也是如此操作。

总结Attention依靠内积来求得每个词和每个K的得分且并行求。

Multi/head的作用

之前卷积中我们利用fillterw来将X映射成更多的特征表达再取最大的进行降维在这里也是同样道理。

1609744062736

  • 通过不同的head得到多个特征表达
  • 将所有特征拼接在一起
  • 可以通过再一层全连接来降维

Multi-Head架构图如下

1609744624147

不同的注意力结果,得到的特征向量表达也是不同的。

堆叠多层:

1609744714101

由于输入输出都是向量,也就是可以堆叠更多层,计算方法都是相同的,只是增加了多层。

位置编码与多层堆叠

位置信息在self-attention中每个词都会考虑整个序列的加权所以其出现位置并不会对结果产生什么影响相当于放哪都无所谓但是这跟实际就有些不符合了我们希望模型能对位置有额外的认识。

1609746327202

POSITIONAL ENCODING将余弦和正弦的周期表达信号当作位置信息。

Add与Normalize

1609746644923

  • 归一化:1609746664324

    Batch Size将其一行让其均值为0标准差为1

    Layer让其一列变成均值为0标准差为1

  • 连接:基本的残差连接方式1609746694985

    残差连接X如果处理完残差变小则使用该X如果残差反而大了则使用原有的X。也就是堆叠的层数中我们保证了堆叠的过程中结果一定不会比原来差。

Decoder

  • Attention计算不同只需要用Q去查encode的K,V即可
  • 加入MASK机制遮挡部分值不使用它比如内积会将每个相乘相加而在计算内积的过程不能让它知道全部信息比如下面的I am a student遮挡掉student否则相当于透题相当于分类中训练的标签。

1609748548046

最终输出结果

  • 得到最终预测结果
  • 损失函数cross-entropy即可

1609748796629

Transformer整体架构

  • Self-Attention
  • Multi-Head
  • 多层堆叠,位置编码
  • 并行加速训练

1609748883096

Encode端

  • input输入X1、X2、...、Xn
  • 初始化:初始化词编码,先随机出词的编码再进行调整,但现在一般使用预训练好的模型,也就是没有了这个步骤;
  • Positional Encoding加入位置编码
  • NxN层堆叠Self-Attention
  • Multi-Head多头Self-Attention
  • 残差连接:随着堆叠层数,可能结果会变差,残差连接则能保证学习至少不比原来差;

Decode端

  • MASK机制遮挡掉部分不使用后面的结果相当于分类中训练的标签
  • 获取K,V的结果
  • NxN层堆叠
  • Linear得到所有的编码Linear成向量
  • Softmax将向量进行分类

这就是Transformer的整体结构。而Transformer和BERT的关系是...,我们接着往下看

BERT模型训练方法

  • Bidirectonal Encoder Representations from Transformers
  • transformer的encoder部分
  • 并不需要标签,有语料就能训练了

也就是下图的部分

1609751626545

如何训练BERT

  • 方法1句子中有15%的词汇被随机mask掉
  • 较给模型去预测被mask的是什么
  • 词语的可能性太多了,中文一般是字
  • 如果BERT训练的向量好那分类自然好

1609751713233

MASK的部分就相当于分类中的训练标签

  • 方法二:预测两个句子是否应该连在一起
  • [seq]:两个句子之前的连接符,[cls]:表示要做分类的向量

1609751917598