|
|
|
@ -30,3 +30,39 @@ RNN的问题在于,每一次的h只考虑前一个,当h到最后的时候,
|
|
|
|
|
|
|
|
|
|

|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
#### 词向量Word2Vec模型通俗解释
|
|
|
|
|
|
|
|
|
|
先考虑第一个问题:如何将文本向量化
|
|
|
|
|
|
|
|
|
|
比如描述一个人,只用身高或体重,还是综合各项指标?如下
|
|
|
|
|
|
|
|
|
|

|
|
|
|
|
|
|
|
|
|
只要有了向量,就可以用不同的方法来计算相似度。如下
|
|
|
|
|
|
|
|
|
|

|
|
|
|
|
|
|
|
|
|
通常,数据的维度越高,能提供的信息也就越多,从而计算结果的可靠性就更值得信赖了。如下
|
|
|
|
|
|
|
|
|
|

|
|
|
|
|
|
|
|
|
|
如何描述语言的特征呢?通常都在词的层面上构建特征。Word2Vec就是把词转成向量:
|
|
|
|
|
|
|
|
|
|

|
|
|
|
|
|
|
|
|
|
假设现在已经拿到一份训练好的词向量,其中每个词都表示50维的向量:
|
|
|
|
|
|
|
|
|
|

|
|
|
|
|
|
|
|
|
|
如果在热度图中显示,结果如下:
|
|
|
|
|
|
|
|
|
|

|
|
|
|
|
|
|
|
|
|
从结果中可以发现,相似的词在特征表达中比较相似,也就是说明词的特征是有实际意义的!
|
|
|
|
|
|
|
|
|
|

|
|
|
|
|
|
|
|
|
|
> 如上图的男人和男孩有相当部分的区域颜色是相似的,只是有的浅了点,有的深了点。同样的地方,对比水,它们之间相差的就非常远,颜色基本没有关联。
|
|
|
|
|
|
|
|
|
|