Update 贝叶斯邮件过滤、几种分布

pull/2/head
benjas 5 years ago
parent 2f49cadf55
commit b1c674f023

@ -290,6 +290,8 @@
- 令![1603802263577](assets/1603802263577.png) - 令![1603802263577](assets/1603802263577.png)
- 解得 λ 的极大似然估计值为 ![1603802356318](assets/1603802356318.png) - 解得 λ 的极大似然估计值为 ![1603802356318](assets/1603802356318.png)
### 概率论基础 ### 概率论基础
#### 概率与频率 #### 概率与频率
@ -377,9 +379,9 @@ P(C) = 0.7+0.8-0.56 = 0.94
> 衡量随机变量相对于数学期望的分散程度 > 衡量随机变量相对于数学期望的分散程度
####
#### 贝叶斯拼写纠错实例
#### 贝叶斯拼写纠错
问题:我们看到用户输入了一个不在字典中的单词,我们需要去猜测用户到底想输入的是什么 问题:我们看到用户输入了一个不在字典中的单词,我们需要去猜测用户到底想输入的是什么
@ -398,3 +400,72 @@ P(C) = 0.7+0.8-0.56 = 0.94
比如用户输入tlp到底是top还是tip当最大似然不能作出决定性判断时可能两边都是一半可能性这是先验概率就可以插手给出指示告诉我们一般来说top出现的程度要高许多所以他更可能想打的是top。 比如用户输入tlp到底是top还是tip当最大似然不能作出决定性判断时可能两边都是一半可能性这是先验概率就可以插手给出指示告诉我们一般来说top出现的程度要高许多所以他更可能想打的是top。
#### 垃圾邮件过滤
模型比较理论
- 最大似然最符合观测数据的即P(D|h)最大的)最有优势
- 奥卡姆剃刀P(h)较大的模型有较大的优势
- 抛一枚硬币观察到的是“字”根据最大似然估计的理念我们应该猜测这枚硬币抛出“字”的概率是1因为这个才能最大化P(D|h)的猜测
实例:
- 问题:给定一封邮件,判定它是否属于垃圾邮件
D来表示这封邮件注意D是由N个单词组成。
我们用h+表示垃圾邮件h-表示正常邮件
- P(h+|D) = P(h+) * P(D|h+) / P(D)
P(h-|D) = P(h-) * P(D|h-) / P(D)
> P(h+)是先验概率,只需要计算一个邮件库垃圾邮件和正常邮件的比例;
>
> P(D|h+) 垃圾邮件中目前这封邮件里面的词有多少个相似。D里面含有N个单词d1d2d3P(D|h+) =P(d1,d2,...,dn|h+)扩展P(d1|h+) * P(d2|d1,h+) * P(d3|d2,d1, h+)* ...垃圾邮件第一个词是d1的概率 * 垃圾邮件第一个词是d1 第二个词是d2的概率 * 垃圾邮件第一个词是d1第二个词是d2第三个词是d3的概率...
- 上面的公式太麻烦了例用朴素贝叶斯简化朴素贝叶斯假设特征之间是独立互不影响的。这么假设完d1d2d3完全没关系了
简化为P(d1|h+) * P(d2|h+) * P(d3|h+) * ...
- 对于P(d1|h+) * P(d2|h+) * P(d3|h+) * ... 只要统计di这个词在垃圾邮件中出现的概率。如全部100封邮件中di个词出现的概率
- 再回到最上面 P(h+|D) = P(h+) * P(D|h+) / P(D)P(D)正常异常相同一起省略P(h+)是先验概率P(D|h+) 是该封信的每个词在垃圾邮件中出现的概率,这样就可以得到结果了
### 数据科学的几种分布
#### 正态分布
> 代表宇宙中大多数的运转状态,大量的随机变量被证明正态分布的。
若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布记为N(μ, σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分别的幅度。当μ = 0σ = 1时的正态分布是标准正态分布。
- 公式![1604500626232](assets/1604500626232.png)
μ是均值
σ是标准差
![正态分布图](assets/1604500841697.png)
#### 二项式分布
> 结果只有两个
投篮只有进球或者不进球进球概率可能是0.5也可能不是,而不进球概率 = 1 - 进球概率。
二项式得属性包括:
- 每个试验都是独立的。
- 试验中的结果只有两种可能:进球和不进球。
- 总共进行了n次相同得试验。
- 所有试验进球和不进球的概率是相同的。
公式![1604501372142](assets/1604501372142.png)
N * p表示分布的均值

Loading…
Cancel
Save