You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

124 lines
3.0 KiB

This file contains ambiguous Unicode characters!

This file contains ambiguous Unicode characters that may be confused with others in your current locale. If your use case is intentional and legitimate, you can safely ignore this warning. Use the Escape button to highlight these characters.

# 4.朴素贝叶斯
### 知识树
Knowledge tree
![1618404326280](assets/1618404326280.png)
> P(y|x)P给定x的条件下y的概率。如P(y=我招女孩子喜欢的概率|我是学生)
### 一个小故事
A story
1. 女朋友和妈妈掉河里路人拿出3颗豆两颗红豆1颗绿豆。如果我抽中红豆救女朋友抽中绿豆救妈妈。
2. 我和路人各种抽一颗,路人发现自己抽中的是绿豆,他想用剩下的那颗跟我换,我换不换?换豆和女朋友活下去的概率一样吗?
![1618406886874](assets/1618406886874.png)
**直觉来讲**
换不换豆我抽中红豆的概率应该都是1/3。这时路人跟我说他的是绿豆排除一颗我抽中红豆的概率是1/2。换不换概率都是1/2
**条件概率**
P(A|B)表示在B发生的条件下发生A的概率。
![1618409215596](assets/1618409215596.png)
计算设A表示我抽中的是红豆B表示路人抽中的是绿豆
![1618409412777](assets/1618409412777.png)
结论如果要救女朋友最好和路人交换2/3。如果要救妈最好不要换。
### 直观理解
Intuitive understanding
假设有一个手写数据集里面有100条记录分别是0-10。
此时小红写了个数字X怎么判断是数字几
朴素贝叶斯工作原理:
P(Y = 0|X) = ?, P(Y = 1|X)=? ......, P(Y = 10|X) = ?
找到概率最高的,就是对应的数字。
### 数学理解
Mathmetical
上面的数字判别公式修改为P(Y=Ck|X=x)。
![1618414407415](assets/1618414407415.png)
![1618414441014](assets/1618414441014.png)
![1618414482438](assets/1618414482438.png)
![1618414502850](assets/1618414502850.png)
> 朴素贝叶斯的“朴素”原因是因为这里假设它们都是相互独立的。
![1618414581449](assets/1618414581449.png)
![1618414592721](assets/1618414592721.png)
### 参数估计
Mathematical understanding
![1618496995830](assets/1618496995830.png)
![1618497005325](assets/1618497005325.png)
> 其中I(yi = Ck) 这里的是指示函数如果yi属于当前类别则计1否则0
![1618497151734](assets/1618497151734.png)
![1618497157923](assets/1618497157923.png)
### 举个例子
Example
试由下表的训练数据学习一个朴素贝叶斯分类器并确定x=(2,S)T的类标签记y。表中X(1)X(2)为特征取值的集合分别为A1={1,2,3}A2={S,M,L}Y为类标记Y∈C = {1,-1}。
![1618499911394](assets/1618499911394.png)
对于给定的![1618499933265](assets/1618499933265.png)计算:
![1618499978692](assets/1618499978692.png)
![1618499987375](assets/1618499987375.png)
![1618499996865](assets/1618499996865.png)
### 总结
Summarization
1. 条件概率公式:![1618500113195](assets/1618500113195.png)表示在已发生事件B的情况下事件A发生的概率。
2. 使用条件概率公式逐步导出最后参数估计的步骤需牢记。
3. 后续会遇到很多类似的推导过程,一般都是先各种替换变复杂最后简化。
公式存在一点点问题如公式的分母可能为0。