Add Interpretation of Word2Vec

5 years ago · dcd0c198c4
parent 0dd41185c6
commit dcd0c198c4
8 changed files with 36 additions and 0 deletions
--- a/深度学习入门/assets/1609473546489.png
+++ b/深度学习入门/assets/1609473546489.png
--- a/深度学习入门/assets/1609473880971.png
+++ b/深度学习入门/assets/1609473880971.png
--- a/深度学习入门/assets/1609473996445.png
+++ b/深度学习入门/assets/1609473996445.png
--- a/深度学习入门/assets/1609474064534.png
+++ b/深度学习入门/assets/1609474064534.png
--- a/深度学习入门/assets/1609474157691.png
+++ b/深度学习入门/assets/1609474157691.png
--- a/深度学习入门/assets/1609474174914.png
+++ b/深度学习入门/assets/1609474174914.png
--- a/深度学习入门/assets/1609474327116.png
+++ b/深度学习入门/assets/1609474327116.png
--- a/深度学习入门/第四章——递归神经网络与词向量原理解读.md
+++ b/深度学习入门/第四章——递归神经网络与词向量原理解读.md
@ -30,3 +30,39 @@ RNN的问题在于，每一次的h只考虑前一个，当h到最后的时候，

  ![1609470919296](assets/1609470919296.png)

+
+
+#### 词向量Word2Vec模型通俗解释
+
+先考虑第一个问题：如何将文本向量化
+
+比如描述一个人，只用身高或体重，还是综合各项指标？如下
+
+![1609473546489](assets/1609473546489.png)
+
+只要有了向量，就可以用不同的方法来计算相似度。如下
+
+![1609473880971](assets/1609473880971.png)
+
+通常，数据的维度越高，能提供的信息也就越多，从而计算结果的可靠性就更值得信赖了。如下
+
+![1609473996445](assets/1609473996445.png)
+
+如何描述语言的特征呢？通常都在词的层面上构建特征。Word2Vec就是把词转成向量：
+
+![1609474064534](assets/1609474064534.png)
+
+假设现在已经拿到一份训练好的词向量，其中每个词都表示50维的向量：
+
+![1609474157691](assets/1609474157691.png)
+
+如果在热度图中显示，结果如下：
+
+![1609474174914](assets/1609474174914.png)
+
+从结果中可以发现，相似的词在特征表达中比较相似，也就是说明词的特征是有实际意义的！
+
+![1609474327116](assets/1609474327116.png)
+
+> 如上图的男人和男孩有相当部分的区域颜色是相似的，只是有的浅了点，有的深了点。同样的地方，对比水，它们之间相差的就非常远，颜色基本没有关联。
+