|
|
@ -290,6 +290,8 @@
|
|
|
|
- 令
|
|
|
|
- 令
|
|
|
|
- 解得 λ 的极大似然估计值为 
|
|
|
|
- 解得 λ 的极大似然估计值为 
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
### 概率论基础
|
|
|
|
### 概率论基础
|
|
|
|
|
|
|
|
|
|
|
|
#### 概率与频率
|
|
|
|
#### 概率与频率
|
|
|
@ -377,9 +379,9 @@ P(C) = 0.7+0.8-0.56 = 0.94
|
|
|
|
|
|
|
|
|
|
|
|
> 衡量随机变量相对于数学期望的分散程度
|
|
|
|
> 衡量随机变量相对于数学期望的分散程度
|
|
|
|
|
|
|
|
|
|
|
|
####
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
#### 贝叶斯拼写纠错实例
|
|
|
|
|
|
|
|
|
|
|
|
#### 贝叶斯拼写纠错
|
|
|
|
|
|
|
|
|
|
|
|
问题:我们看到用户输入了一个不在字典中的单词,我们需要去猜测用户到底想输入的是什么
|
|
|
|
问题:我们看到用户输入了一个不在字典中的单词,我们需要去猜测用户到底想输入的是什么
|
|
|
|
|
|
|
|
|
|
|
@ -398,3 +400,72 @@ P(C) = 0.7+0.8-0.56 = 0.94
|
|
|
|
|
|
|
|
|
|
|
|
比如用户输入tlp,到底是top还是tip?当最大似然不能作出决定性判断时(可能两边都是一半可能性),这是先验概率就可以插手给出指示,告诉我们,一般来说top出现的程度要高许多,所以他更可能想打的是top。
|
|
|
|
比如用户输入tlp,到底是top还是tip?当最大似然不能作出决定性判断时(可能两边都是一半可能性),这是先验概率就可以插手给出指示,告诉我们,一般来说top出现的程度要高许多,所以他更可能想打的是top。
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
#### 垃圾邮件过滤
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
模型比较理论
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
- 最大似然:最符合观测数据的(即P(D|h)最大的)最有优势
|
|
|
|
|
|
|
|
- 奥卡姆剃刀:P(h)较大的模型有较大的优势
|
|
|
|
|
|
|
|
- 抛一枚硬币,观察到的是“字”,根据最大似然估计的理念,我们应该猜测这枚硬币抛出“字”的概率是1,因为这个才能最大化P(D|h)的猜测
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
实例:
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
- 问题:给定一封邮件,判定它是否属于垃圾邮件
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
D来表示这封邮件,注意D是由N个单词组成。
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
我们用h+表示垃圾邮件,h-表示正常邮件
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
- P(h+|D) = P(h+) * P(D|h+) / P(D)
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
P(h-|D) = P(h-) * P(D|h-) / P(D)
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
> P(h+)是先验概率,只需要计算一个邮件库垃圾邮件和正常邮件的比例;
|
|
|
|
|
|
|
|
>
|
|
|
|
|
|
|
|
> P(D|h+) 垃圾邮件中,目前这封邮件里面的词有多少个相似。D里面含有N个单词d1,d2,d3,P(D|h+) =P(d1,d2,...,dn|h+),扩展:P(d1|h+) * P(d2|d1,h+) * P(d3|d2,d1, h+)* ...,垃圾邮件第一个词是d1的概率 * 垃圾邮件第一个词是d1 第二个词是d2的概率 * 垃圾邮件第一个词是d1第二个词是d2第三个词是d3的概率...
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
- 上面的公式太麻烦了,例用朴素贝叶斯简化,朴素贝叶斯假设特征之间是独立,互不影响的。这么假设完d1,d2,d3完全没关系了,
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
简化为P(d1|h+) * P(d2|h+) * P(d3|h+) * ...
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
- 对于P(d1|h+) * P(d2|h+) * P(d3|h+) * ... 只要统计di这个词在垃圾邮件中出现的概率。如:全部100封邮件中,di个词出现的概率
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
- 再回到最上面 P(h+|D) = P(h+) * P(D|h+) / P(D),P(D)正常异常相同,一起省略,P(h+)是先验概率,P(D|h+) 是该封信的每个词在垃圾邮件中出现的概率,这样就可以得到结果了
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
### 数据科学的几种分布
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
#### 正态分布
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
> 代表宇宙中大多数的运转状态,大量的随机变量被证明正态分布的。
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布,记为N(μ, σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分别的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
- 公式
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
μ是均值
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
σ是标准差
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|

|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
#### 二项式分布
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
> 结果只有两个
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
投篮只有进球或者不进球,进球概率可能是0.5也可能不是,而不进球概率 = 1 - 进球概率。
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
二项式得属性包括:
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
- 每个试验都是独立的。
|
|
|
|
|
|
|
|
- 试验中的结果只有两种可能:进球和不进球。
|
|
|
|
|
|
|
|
- 总共进行了n次相同得试验。
|
|
|
|
|
|
|
|
- 所有试验进球和不进球的概率是相同的。
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
公式
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
N * p表示分布的均值
|
|
|
|
|
|
|
|
|
|
|
|