|
|
|
@ -70,7 +70,7 @@ RNN的问题在于,每一次的h只考虑前一个,当h到最后的时候,
|
|
|
|
|
|
|
|
|
|
#### 训练数据构建
|
|
|
|
|
|
|
|
|
|
输入数据从哪来?首先我们得理解的是,文字单词转换成数值,它并不是仅仅针对该次任务或者该数据的,Thou或者shalt在这里是有这些意思,转成对应的数值,在其它文本其它数据中也是同样的意思,所以只要是符合逻辑的文本,我们都可以拿来训练。目前有Google的预训练bert模型也是这个原理。
|
|
|
|
|
输入数据从哪来?首先我们得理解的是,文字单词转换成数值,它并不是仅仅针对该次任务或者该数据的,Thou或者shalt在这里是有这些意思,转成对应的数值,在其它文本其它数据中也是同样的意思,所以只要是符合逻辑的文本,我们都可以拿来训练。目前有Google的预训练bert模型也是这个原理。一般我们会维护一下词库大表。
|
|
|
|
|
|
|
|
|
|

|
|
|
|
|
|
|
|
|
@ -82,3 +82,22 @@ RNN的问题在于,每一次的h只考虑前一个,当h到最后的时候,
|
|
|
|
|
|
|
|
|
|

|
|
|
|
|
|
|
|
|
|
> 也就是可以是无监督学习,但文字的前后一定是有先后顺序的,不能没有说话逻辑。
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
#### CBOW与Skipgram模型
|
|
|
|
|
|
|
|
|
|
CBOW:根据上下文预测中间内容
|
|
|
|
|
|
|
|
|
|

|
|
|
|
|
|
|
|
|
|
Skipgram:根据中间内容预测上下文
|
|
|
|
|
|
|
|
|
|

|
|
|
|
|
|
|
|
|
|
两模型输入输出如下:
|
|
|
|
|
|
|
|
|
|

|
|
|
|
|
|
|
|
|
|
> 这两个模型都存在gensim里,后续调用该工具包即可。
|