Update 贝叶斯邮件过滤、几种分布

5 years ago · b1c674f023
parent 2f49cadf55
commit b1c674f023
1 changed files with 73 additions and 2 deletions
--- a/必备数学基础.md
+++ b/必备数学基础.md
@ -290,6 +290,8 @@
 - 令![1603802263577](assets/1603802263577.png)
 - 解得 λ 的极大似然估计值为 ![1603802356318](assets/1603802356318.png)
 ### 概率论基础
 #### 概率与频率
@ -377,9 +379,9 @@ P(C) = 0.7+0.8-0.56 = 0.94
 > 衡量随机变量相对于数学期望的分散程度
 #### 
-#### 贝叶斯拼写纠错实例
+
 #### 贝叶斯拼写纠错
 问题：我们看到用户输入了一个不在字典中的单词，我们需要去猜测用户到底想输入的是什么
@ -398,3 +400,72 @@ P(C) = 0.7+0.8-0.56 = 0.94
 比如用户输入tlp，到底是top还是tip？当最大似然不能作出决定性判断时（可能两边都是一半可能性），这是先验概率就可以插手给出指示，告诉我们，一般来说top出现的程度要高许多，所以他更可能想打的是top。
 #### 垃圾邮件过滤
 模型比较理论
 - 最大似然：最符合观测数据的（即P(D|h)最大的）最有优势
 - 奥卡姆剃刀：P(h)较大的模型有较大的优势
 - 抛一枚硬币，观察到的是“字”，根据最大似然估计的理念，我们应该猜测这枚硬币抛出“字”的概率是1，因为这个才能最大化P(D|h)的猜测
 实例：
 - 问题：给定一封邮件，判定它是否属于垃圾邮件
  D来表示这封邮件，注意D是由N个单词组成。
  我们用h+表示垃圾邮件，h-表示正常邮件
 - P(h+|D) = P(h+) * P(D|h+) / P(D)
  P(h-|D) = P(h-) * P(D|h-) / P(D)
  > P(h+)是先验概率，只需要计算一个邮件库垃圾邮件和正常邮件的比例；
  >
  > P(D|h+) 垃圾邮件中，目前这封邮件里面的词有多少个相似。D里面含有N个单词d1，d2，d3，P(D|h+) =P(d1,d2,...,dn|h+)，扩展：P(d1|h+)  * P(d2|d1,h+)  * P(d3|d2,d1, h+)* ...，垃圾邮件第一个词是d1的概率 * 垃圾邮件第一个词是d1 第二个词是d2的概率 * 垃圾邮件第一个词是d1第二个词是d2第三个词是d3的概率...
 - 上面的公式太麻烦了，例用朴素贝叶斯简化，朴素贝叶斯假设特征之间是独立，互不影响的。这么假设完d1，d2，d3完全没关系了，
  简化为P(d1|h+)  * P(d2|h+) * P(d3|h+)  * ...
 - 对于P(d1|h+)  * P(d2|h+) * P(d3|h+)  * ... 只要统计di这个词在垃圾邮件中出现的概率。如：全部100封邮件中，di个词出现的概率
 - 再回到最上面 P(h+|D) = P(h+) * P(D|h+) / P(D)，P(D)正常异常相同，一起省略，P(h+)是先验概率，P(D|h+) 是该封信的每个词在垃圾邮件中出现的概率，这样就可以得到结果了
 ### 数据科学的几种分布
 #### 正态分布
 > 代表宇宙中大多数的运转状态，大量的随机变量被证明正态分布的。
 若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布，记为N(μ, σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置，其标准差σ决定了分别的幅度。当μ = 0，σ = 1时的正态分布是标准正态分布。
 - 公式![1604500626232](assets/1604500626232.png)
  μ是均值
  σ是标准差
 ![正态分布图](assets/1604500841697.png)
 #### 二项式分布
 > 结果只有两个
 投篮只有进球或者不进球，进球概率可能是0.5也可能不是，而不进球概率 = 1 - 进球概率。
 二项式得属性包括：
 - 每个试验都是独立的。
 - 试验中的结果只有两种可能：进球和不进球。
 - 总共进行了n次相同得试验。
 - 所有试验进球和不进球的概率是相同的。
 公式![1604501372142](assets/1604501372142.png)
 N * p表示分布的均值