|
|
|
@ -1,4 +1,4 @@
|
|
|
|
|
# 必备数学基础
|
|
|
|
|
必备数学基础
|
|
|
|
|
|
|
|
|
|
### 高等数学基础
|
|
|
|
|
|
|
|
|
@ -424,15 +424,15 @@ P(C) = 0.7+0.8-0.56 = 0.94
|
|
|
|
|
|
|
|
|
|
> P(h+)是先验概率,只需要计算一个邮件库垃圾邮件和正常邮件的比例;
|
|
|
|
|
>
|
|
|
|
|
> P(D|h+) 垃圾邮件中,目前这封邮件里面的词有多少个相似。D里面含有N个单词d1,d2,d3,P(D|h+) =P(d1,d2,...,dn|h+),扩展:P(d1|h+) * P(d2|d1,h+) * P(d3|d2,d1, h+)* ...,垃圾邮件第一个词是d1的概率 * 垃圾邮件第一个词是d1 第二个词是d2的概率 * 垃圾邮件第一个词是d1第二个词是d2第三个词是d3的概率...
|
|
|
|
|
> P(D|h+) 垃圾邮件中,目前这封邮件里面的词有多少个相似。D里面含有N个单词d1,d2,d3,P(D|h+) =P(d1,d2,...,dn|h+),扩展:P(d1|h+) × P(d2|d1,h+) × P(d3|d2,d1, h+)× ...,垃圾邮件第一个词是d1的概率 × 垃圾邮件第一个词是d1且第二个词是d2的概率 × 垃圾邮件第一个词是d1且第二个词是d2且第三个词是d3的概率...
|
|
|
|
|
|
|
|
|
|
- 上面的公式太麻烦了,例用朴素贝叶斯简化,朴素贝叶斯假设特征之间是独立,互不影响的。这么假设完d1,d2,d3完全没关系了,
|
|
|
|
|
|
|
|
|
|
简化为P(d1|h+) * P(d2|h+) * P(d3|h+) * ...
|
|
|
|
|
简化为P(d1|h+) × P(d2|h+) × P(d3|h+) × ...
|
|
|
|
|
|
|
|
|
|
- 对于P(d1|h+) * P(d2|h+) * P(d3|h+) * ... 只要统计di这个词在垃圾邮件中出现的概率。如:全部100封邮件中,di个词出现的概率
|
|
|
|
|
- 对于P(d1|h+) × P(d2|h+) × P(d3|h+) × ... 只要统计di这个词在垃圾邮件中出现的概率。如:全部100封邮件中,di个词出现的概率
|
|
|
|
|
|
|
|
|
|
- 再回到最上面 P(h+|D) = P(h+) * P(D|h+) / P(D),P(D)正常异常相同,一起省略,P(h+)是先验概率,P(D|h+) 是该封信的每个词在垃圾邮件中出现的概率,这样就可以得到结果了
|
|
|
|
|
- 再回到最上面 P(h+|D) = P(h+) × P(D|h+) / P(D),P(D)正常异常相同,一起省略,P(h+)是先验概率,P(D|h+) 是该封信的每个词在垃圾邮件中出现的概率,这样就可以得到结果了
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
@ -1523,6 +1523,14 @@ X轴上的特征表示归一化后,是对某个特征增强10倍,其它不
|
|
|
|
|
|
|
|
|
|
- 
|
|
|
|
|
|
|
|
|
|
> P(A|B):B情况下A发生的概率
|
|
|
|
|
>
|
|
|
|
|
> P(B|A):A情况下B发生的概率
|
|
|
|
|
>
|
|
|
|
|
> P(A):A发生的概率
|
|
|
|
|
>
|
|
|
|
|
> P(B):B发生的高女
|
|
|
|
|
|
|
|
|
|
#### 拼写纠正实例:
|
|
|
|
|
|
|
|
|
|
- 问题是我们看到用户输入了一个不在字典中的单词,我们需要去猜测:“这个家伙到底真正想输入的单词是什么呢”
|
|
|
|
@ -1570,4 +1578,75 @@ X轴上的特征表示归一化后,是对某个特征增强10倍,其它不
|
|
|
|
|
|
|
|
|
|
假设di与di-1是完全条件无关的(朴素贝叶斯假设特征之间是独立,互不影响)
|
|
|
|
|
|
|
|
|
|
简化为P(d1h+) × P(d2|h+) × P(d3|h+)对于P(d1|h+) × P(d2|h+) × P(d3|h+) × …只要统计di这个单词在垃圾邮件中出现的频率即可
|
|
|
|
|
简化为P(d1h+) × P(d2|h+) × P(d3|h+)对于P(d1|h+) × P(d2|h+) × P(d3|h+) × …只要统计di这个单词在垃圾邮件中出现的频率即可
|
|
|
|
|
|
|
|
|
|
#### 贝叶斯解释
|
|
|
|
|
|
|
|
|
|
最终目标就是得到后验分布:
|
|
|
|
|
|
|
|
|
|
这个条件概率就是在给定观测数据的时候,求得的参数的概率。以前我们想知道一个参数,要通过大量的观测值才能得出,而且是只能得出一个参数值,而现在运用了贝叶斯统计思想,这个后验概率分布其实是一系列参数值θ的概率分布。
|
|
|
|
|
|
|
|
|
|

|
|
|
|
|
|
|
|
|
|

|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
积分求的区间指的是参数θ所有可能取到的值的域,所以可以看出后验概率是在知道x的前提下在θ域内的一个关于θ的概率密度分布,每一个θ都有一个对应的可能性(也就是概率)。
|
|
|
|
|
|
|
|
|
|
**Priors**
|
|
|
|
|
|
|
|
|
|
先验分布就是你在取得实验观测值以前对一个参数概率分布的主观判断。
|
|
|
|
|
|
|
|
|
|
**Likelihood functions**
|
|
|
|
|
|
|
|
|
|
以然函数帮助我们依据数据中的信息将先验分布更新到我们想要的后验分布。
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
**一个小例子**
|
|
|
|
|
|
|
|
|
|
这个例子很容易就能求解出来大多数情况贝叶斯分析的计算量会很大血友病是一种罕见的遗传性疾病,该病是一种X连锁隐性遗传性状,这意味着男性只有一个基因,而女性只有两个基因,这种特征可以被显性基因等位基因所掩盖在这个例子中,我们需要计算这个母亲是携带者的概率。
|
|
|
|
|
|
|
|
|
|
> 可以先通俗的理解为,有基因大X和小x,女性有两个基因且是两个小x才是感染者,男性有一个基因且一个小x就是感染者,而遗传是一半一半,即会从父亲中拿一个,母亲中也拿一个遗传。注意,这里的感染者不代表会发病。
|
|
|
|
|
|
|
|
|
|

|
|
|
|
|
|
|
|
|
|
> 红色:感染affected
|
|
|
|
|
>
|
|
|
|
|
> 橙色:携带carrier
|
|
|
|
|
>
|
|
|
|
|
> 绿色:正常no gene
|
|
|
|
|
>
|
|
|
|
|
> 灰色:未知 unknown
|
|
|
|
|
|
|
|
|
|
W=1表示是感染的,W=0表示是未感染的。求解公式如下:
|
|
|
|
|
|
|
|
|
|

|
|
|
|
|
|
|
|
|
|
> S1和S2表示两个孩子,都是0未感染,即W=1在两个孩子都是未感染的情况下的概率
|
|
|
|
|
|
|
|
|
|
先验知识:Pr(W = 1) = 0.5,另一种表达方式:
|
|
|
|
|
|
|
|
|
|

|
|
|
|
|
|
|
|
|
|
> Pr(W = 1) = 0.5:已知女人的母亲是携带者两个x,兄弟感染且发病,那么她至少有一个x,而两个孩子是未感染的,那么她至多有一个x,如果女人是两个小x,根据遗传对半,小孩肯定是感染者
|
|
|
|
|
|
|
|
|
|
计算女人是感染和未感染者的两种可能性
|
|
|
|
|
|
|
|
|
|
对于似然函数
|
|
|
|
|
|
|
|
|
|

|
|
|
|
|
|
|
|
|
|
> (0.5)怎么来的:根据上面情况可知,女人是Xx(感染者),那么给两个小孩的概率大X还是小x的概率都是0.5。
|
|
|
|
|
>
|
|
|
|
|
> (1)怎么来的:W=0未感染的情况下,给两个孩子都是大X,即只有1种可能
|
|
|
|
|
|
|
|
|
|
我们再计算最后女人是携带者的概率,根据贝叶斯公式:
|
|
|
|
|
|
|
|
|
|

|
|
|
|
|
|
|
|
|
|
> 分母:两个孩子是未感染者的情况下,女人是感染者的概率 × 感染者概率 + 两个孩子是未感染者的情况下,女人是未感染者的概率 × 未感染的概率。
|
|
|
|
|
>
|
|
|
|
|
> 分子:两个孩子是未感染者的情况下,女人是感染者的概率 × 感染者概率
|
|
|
|
|
|
|
|
|
|