Add-CBOW and Skipgram model

5 years ago · 856140ea1c
parent 0dd1e82175
commit 856140ea1c
7 changed files with 20 additions and 1 deletions
--- a/深度学习入门/assets/1609548501773.png
+++ b/深度学习入门/assets/1609548501773.png
--- a/深度学习入门/assets/1609548578713.png
+++ b/深度学习入门/assets/1609548578713.png
--- a/深度学习入门/assets/1609548813211.png
+++ b/深度学习入门/assets/1609548813211.png
--- a/深度学习入门/assets/1609548875711.png
+++ b/深度学习入门/assets/1609548875711.png
--- a/深度学习入门/assets/1609548965958.png
+++ b/深度学习入门/assets/1609548965958.png
--- a/深度学习入门/assets/1609549331116.png
+++ b/深度学习入门/assets/1609549331116.png
--- a/深度学习入门/第四章——递归神经网络与词向量原理解读.md
+++ b/深度学习入门/第四章——递归神经网络与词向量原理解读.md
@ -70,7 +70,7 @@ RNN的问题在于，每一次的h只考虑前一个，当h到最后的时候，

 #### 训练数据构建

-输入数据从哪来？首先我们得理解的是，文字单词转换成数值，它并不是仅仅针对该次任务或者该数据的，Thou或者shalt在这里是有这些意思，转成对应的数值，在其它文本其它数据中也是同样的意思，所以只要是符合逻辑的文本，我们都可以拿来训练。目前有Google的预训练bert模型也是这个原理。
+输入数据从哪来？首先我们得理解的是，文字单词转换成数值，它并不是仅仅针对该次任务或者该数据的，Thou或者shalt在这里是有这些意思，转成对应的数值，在其它文本其它数据中也是同样的意思，所以只要是符合逻辑的文本，我们都可以拿来训练。目前有Google的预训练bert模型也是这个原理。一般我们会维护一下词库大表。

 ![1609548160973](assets/1609548160973.png)

@ -82,3 +82,22 @@ RNN的问题在于，每一次的h只考虑前一个，当h到最后的时候，

 ![1609548578713](assets/1609548578713.png)

+> 也就是可以是无监督学习，但文字的前后一定是有先后顺序的，不能没有说话逻辑。
+
+
+
+#### CBOW与Skipgram模型
+
+CBOW：根据上下文预测中间内容
+
+![1609548813211](assets/1609548813211.png)
+
+Skipgram：根据中间内容预测上下文
+
+![1609548875711](assets/1609548875711.png)
+
+两模型输入输出如下：
+
+![1609548965958](assets/1609548965958.png)
+
+> 这两个模型都存在gensim里，后续调用该工具包即可。