Add. Negative-sampling of NLP

4 years ago · 3f9cf68781
parent 856140ea1c
commit 3f9cf68781
7 changed files with 53 additions and 2 deletions
--- a/深度学习入门/assets/1609549488755.png
+++ b/深度学习入门/assets/1609549488755.png
--- a/深度学习入门/assets/1609549655385.png
+++ b/深度学习入门/assets/1609549655385.png
--- a/深度学习入门/assets/1609549825425.png
+++ b/深度学习入门/assets/1609549825425.png
--- a/深度学习入门/assets/1609549880269.png
+++ b/深度学习入门/assets/1609549880269.png
--- a/深度学习入门/assets/1609550018745.png
+++ b/深度学习入门/assets/1609550018745.png
--- a/深度学习入门/assets/1609550107070.png
+++ b/深度学习入门/assets/1609550107070.png
--- a/深度学习入门/第四章——递归神经网络与词向量原理解读.md
+++ b/深度学习入门/第四章——递归神经网络与词向量原理解读.md
@ -70,7 +70,7 @@ RNN的问题在于，每一次的h只考虑前一个，当h到最后的时候，

 #### 训练数据构建

-输入数据从哪来？首先我们得理解的是，文字单词转换成数值，它并不是仅仅针对该次任务或者该数据的，Thou或者shalt在这里是有这些意思，转成对应的数值，在其它文本其它数据中也是同样的意思，所以只要是符合逻辑的文本，我们都可以拿来训练。目前有Google的预训练bert模型也是这个原理。一般我们会维护一下词库大表。
+输入数据从哪来？首先我们得理解的是，文字单词转换成数值，它并不是仅仅针对该次任务或者该数据的，Thou或者shalt在这里是有这些意思，转成对应的数值，在其它文本其它数据中也是同样的意思，所以只要是符合逻辑的文本，我们都可以拿来训练。目前有Google的预训练bert模型也是这个原理。一般我们会维护一下语料库大表。

 ![1609548160973](assets/1609548160973.png)

@ -100,4 +100,55 @@ Skipgram：根据中间内容预测上下文

 ![1609548965958](assets/1609548965958.png)

-> 这两个模型都存在gensim里，后续调用该工具包即可。
+> 这两个模型都存在gensim里，后续调用该工具包即可。
+
+最终预测的词也会带有概率，而前面我们讲到如SoftMax用到会将最大的值提取出来，如果我们的语料库非常大，比如5万字，那么要给出5万字的概率，而SoftMax也得计算这5万，可以说是非常耗时的，怎么解决这个问题呢？
+
+
+
+#### 负采样方案
+
+**初始方案：**
+
+输入两个单词，看它们是不是前后对应的输入和输出，也就相当于一个二分类任务
+
+![1609549331116](assets/1609549331116.png)
+
+出发点是好的，但是此时训练集构建出来的标签全为1，无法进行较好的训练
+
+![1609549488755](assets/1609549488755.png)
+
+> 如上图，这样相当于告诉模型，只要往1预测，那么一定能效果好，类似风控场景中，正负样本非常悬殊甚至达到1：1万的情况。我们是不能直接训练的，我们会“构造”一些正样本，而这里是1太多，需要构建一些负样本。
+
+**改进方案：**
+
+加入一些负样本
+
+![1609549655385](assets/1609549655385.png)
+
+> 1个1添加多少个0呢？gensim工具包给出的默认参数是1个1和5个0，即正负样本比1:5
+
+正常情况下的Skipgram训练集
+
+![1609549825425](assets/1609549825425.png)
+
+**大致流程如下：**
+
+**1.初始化词向量矩阵**
+
+![1609549880269](assets/1609549880269.png)
+
+> 最左边Embedding是语料库大表，所有的词都在里面。
+>
+> Context是本次的预测的文本
+>
+> dataset是负采样完成后的结果
+
+![1609550018745](assets/1609550018745.png)
+
+**2.通过神经网络返回传播来计算更新，此时不光更新权重参数矩阵W，也会更新输入数据**
+
+![1609550107070](assets/1609550107070.png)
+
+> 给出损失函数Error的结果，并更新到输入和输出数据中。更新输出数据是为了输出本次的预测结果，而更新输入数据，是为了维护我们将一直使用的语料库大表，使得我们的语料库的词向量等越来越准确。
+