Add-CBOW and Skipgram model

pull/2/head
benjas 5 years ago
parent 0dd1e82175
commit 856140ea1c

Binary file not shown.

Before

Width:  |  Height:  |  Size: 96 KiB

After

Width:  |  Height:  |  Size: 67 KiB

Binary file not shown.

Before

Width:  |  Height:  |  Size: 54 KiB

After

Width:  |  Height:  |  Size: 33 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 29 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 35 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 45 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 51 KiB

@ -70,7 +70,7 @@ RNN的问题在于每一次的h只考虑前一个当h到最后的时候
#### 训练数据构建
输入数据从哪来首先我们得理解的是文字单词转换成数值它并不是仅仅针对该次任务或者该数据的Thou或者shalt在这里是有这些意思转成对应的数值在其它文本其它数据中也是同样的意思所以只要是符合逻辑的文本我们都可以拿来训练。目前有Google的预训练bert模型也是这个原理。
输入数据从哪来首先我们得理解的是文字单词转换成数值它并不是仅仅针对该次任务或者该数据的Thou或者shalt在这里是有这些意思转成对应的数值在其它文本其它数据中也是同样的意思所以只要是符合逻辑的文本我们都可以拿来训练。目前有Google的预训练bert模型也是这个原理。一般我们会维护一下词库大表。
![1609548160973](assets/1609548160973.png)
@ -82,3 +82,22 @@ RNN的问题在于每一次的h只考虑前一个当h到最后的时候
![1609548578713](assets/1609548578713.png)
> 也就是可以是无监督学习,但文字的前后一定是有先后顺序的,不能没有说话逻辑。
#### CBOW与Skipgram模型
CBOW根据上下文预测中间内容
![1609548813211](assets/1609548813211.png)
Skipgram根据中间内容预测上下文
![1609548875711](assets/1609548875711.png)
两模型输入输出如下:
![1609548965958](assets/1609548965958.png)
> 这两个模型都存在gensim里后续调用该工具包即可。
Loading…
Cancel
Save