Add 贝叶斯求解具体值

pull/2/head
benjas 5 years ago
parent 92901e3ed7
commit b73348b340

Binary file not shown.

After

Width:  |  Height:  |  Size: 5.4 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 35 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 6.3 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 96 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 2.7 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 3.6 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 7.0 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 15 KiB

@ -1,4 +1,4 @@
# 必备数学基础 必备数学基础
### 高等数学基础 ### 高等数学基础
@ -424,15 +424,15 @@ P(C) = 0.7+0.8-0.56 = 0.94
> P(h+)是先验概率,只需要计算一个邮件库垃圾邮件和正常邮件的比例; > P(h+)是先验概率,只需要计算一个邮件库垃圾邮件和正常邮件的比例;
> >
> P(D|h+) 垃圾邮件中目前这封邮件里面的词有多少个相似。D里面含有N个单词d1d2d3P(D|h+) =P(d1,d2,...,dn|h+)扩展P(d1|h+) * P(d2|d1,h+) * P(d3|d2,d1, h+)* ...垃圾邮件第一个词是d1的概率 * 垃圾邮件第一个词是d1 第二个词是d2的概率 * 垃圾邮件第一个词是d1第二个词是d2第三个词是d3的概率... > P(D|h+) 垃圾邮件中目前这封邮件里面的词有多少个相似。D里面含有N个单词d1d2d3P(D|h+) =P(d1,d2,...,dn|h+)扩展P(d1|h+) × P(d2|d1,h+) × P(d3|d2,d1, h+)× ...垃圾邮件第一个词是d1的概率 × 垃圾邮件第一个词是d1且第二个词是d2的概率 × 垃圾邮件第一个词是d1且第二个词是d2且第三个词是d3的概率...
- 上面的公式太麻烦了例用朴素贝叶斯简化朴素贝叶斯假设特征之间是独立互不影响的。这么假设完d1d2d3完全没关系了 - 上面的公式太麻烦了例用朴素贝叶斯简化朴素贝叶斯假设特征之间是独立互不影响的。这么假设完d1d2d3完全没关系了
简化为P(d1|h+) * P(d2|h+) * P(d3|h+) * ... 简化为P(d1|h+) × P(d2|h+) × P(d3|h+) × ...
- 对于P(d1|h+) * P(d2|h+) * P(d3|h+) * ... 只要统计di这个词在垃圾邮件中出现的概率。如全部100封邮件中di个词出现的概率 - 对于P(d1|h+) × P(d2|h+) × P(d3|h+) × ... 只要统计di这个词在垃圾邮件中出现的概率。如全部100封邮件中di个词出现的概率
- 再回到最上面 P(h+|D) = P(h+) * P(D|h+) / P(D)P(D)正常异常相同一起省略P(h+)是先验概率P(D|h+) 是该封信的每个词在垃圾邮件中出现的概率,这样就可以得到结果了 - 再回到最上面 P(h+|D) = P(h+) × P(D|h+) / P(D)P(D)正常异常相同一起省略P(h+)是先验概率P(D|h+) 是该封信的每个词在垃圾邮件中出现的概率,这样就可以得到结果了
@ -1523,6 +1523,14 @@ X轴上的特征表示归一化后是对某个特征增强10倍其它不
- ![1606483124149](assets/1606483124149.png) - ![1606483124149](assets/1606483124149.png)
> P(A|B)B情况下A发生的概率
>
> P(B|A)A情况下B发生的概率
>
> P(A)A发生的概率
>
> P(B)B发生的高女
#### 拼写纠正实例: #### 拼写纠正实例:
- 问题是我们看到用户输入了一个不在字典中的单词,我们需要去猜测:“这个家伙到底真正想输入的单词是什么呢” - 问题是我们看到用户输入了一个不在字典中的单词,我们需要去猜测:“这个家伙到底真正想输入的单词是什么呢”
@ -1570,4 +1578,75 @@ X轴上的特征表示归一化后是对某个特征增强10倍其它不
假设di与di-1是完全条件无关的(朴素贝叶斯假设特征之间是独立,互不影响) 假设di与di-1是完全条件无关的(朴素贝叶斯假设特征之间是独立,互不影响)
简化为P(d1h+) × P(d2|h+) × P(d3|h+)对于P(d1|h+) × P(d2|h+) × P(d3|h+) × …只要统计di这个单词在垃圾邮件中出现的频率即可 简化为P(d1h+) × P(d2|h+) × P(d3|h+)对于P(d1|h+) × P(d2|h+) × P(d3|h+) × …只要统计di这个单词在垃圾邮件中出现的频率即可
#### 贝叶斯解释
最终目标就是得到后验分布:![1606525530954](assets/1606525530954.png)
这个条件概率就是在给定观测数据的时候,求得的参数的概率。以前我们想知道一个参数,要通过大量的观测值才能得出,而且是只能得出一个参数值,而现在运用了贝叶斯统计思想,这个后验概率分布其实是一系列参数值θ的概率分布。
![1606525661495](assets/1606525661495.png)
![1606525784551](assets/1606525784551.png)
积分求的区间指的是参数θ所有可能取到的值的域,所以可以看出后验概率是在知道x的前提下在θ域内的一个关于θ的概率密度分布每一个θ都有一个对应的可能性(也就是概率)。
**Priors**
先验分布就是你在取得实验观测值以前对一个参数概率分布的主观判断。
**Likelihood functions**
以然函数帮助我们依据数据中的信息将先验分布更新到我们想要的后验分布。
**一个小例子**
这个例子很容易就能求解出来大多数情况贝叶斯分析的计算量会很大血友病是一种罕见的遗传性疾病,该病是一种X连锁隐性遗传性状这意味着男性只有一个基因而女性只有两个基因这种特征可以被显性基因等位基因所掩盖在这个例子中我们需要计算这个母亲是携带者的概率。
> 可以先通俗的理解为有基因大X和小x女性有两个基因且是两个小x才是感染者男性有一个基因且一个小x就是感染者而遗传是一半一半即会从父亲中拿一个母亲中也拿一个遗传。注意这里的感染者不代表会发病。
![1606526061291](assets/1606526061291.png)
> 红色感染affected
>
> 橙色携带carrier
>
> 绿色正常no gene
>
> 灰色:未知 unknown
W=1表示是感染的W=0表示是未感染的。求解公式如下
![1606526174414](assets/1606526174414.png)
> S1和S2表示两个孩子都是0未感染即W=1在两个孩子都是未感染的情况下的概率
先验知识Pr(W = 1) = 0.5,另一种表达方式:
![1606526242347](assets/1606526242347.png)
> Pr(W = 1) = 0.5已知女人的母亲是携带者两个x兄弟感染且发病那么她至少有一个x而两个孩子是未感染的那么她至多有一个x如果女人是两个小x根据遗传对半小孩肯定是感染者
计算女人是感染和未感染者的两种可能性
对于似然函数
![1606527056079](assets/1606527056079.png)
> (0.5)怎么来的根据上面情况可知女人是Xx感染者那么给两个小孩的概率大X还是小x的概率都是0.5。
>
> (1)怎么来的W=0未感染的情况下给两个孩子都是大X即只有1种可能
我们再计算最后女人是携带者的概率,根据贝叶斯公式:
![1606527515261](assets/1606527515261.png)
> 分母:两个孩子是未感染者的情况下,女人是感染者的概率 × 感染者概率 + 两个孩子是未感染者的情况下,女人是未感染者的概率 × 未感染的概率。
>
> 分子:两个孩子是未感染者的情况下,女人是感染者的概率 × 感染者概率

Loading…
Cancel
Save