You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

3.0 KiB

4.朴素贝叶斯

知识树

Knowledge tree

1618404326280

P(y|x)P给定x的条件下y的概率。如P(y=我招女孩子喜欢的概率|我是学生)

一个小故事

A story

  1. 女朋友和妈妈掉河里路人拿出3颗豆两颗红豆1颗绿豆。如果我抽中红豆救女朋友抽中绿豆救妈妈。
  2. 我和路人各种抽一颗,路人发现自己抽中的是绿豆,他想用剩下的那颗跟我换,我换不换?换豆和女朋友活下去的概率一样吗?

1618406886874

直觉来讲

换不换豆我抽中红豆的概率应该都是1/3。这时路人跟我说他的是绿豆排除一颗我抽中红豆的概率是1/2。换不换概率都是1/2

条件概率

P(A|B)表示在B发生的条件下发生A的概率。

1618409215596

计算设A表示我抽中的是红豆B表示路人抽中的是绿豆

1618409412777

结论如果要救女朋友最好和路人交换2/3。如果要救妈最好不要换。

直观理解

Intuitive understanding

假设有一个手写数据集里面有100条记录分别是0-10。

此时小红写了个数字X怎么判断是数字几

朴素贝叶斯工作原理:

P(Y = 0|X) = ?, P(Y = 1|X)=? ......, P(Y = 10|X) = ?

找到概率最高的,就是对应的数字。

数学理解

Mathmetical

上面的数字判别公式修改为P(Y=Ck|X=x)。

1618414407415

1618414441014

1618414482438

1618414502850

朴素贝叶斯的“朴素”原因是因为这里假设它们都是相互独立的。

1618414581449

1618414592721

参数估计

Mathematical understanding

1618496995830

1618497005325

其中I(yi = Ck) 这里的是指示函数如果yi属于当前类别则计1否则0

1618497151734

1618497157923

举个例子

Example

试由下表的训练数据学习一个朴素贝叶斯分类器并确定x=(2,S)T的类标签记y。表中X(1)X(2)为特征取值的集合分别为A1={1,2,3}A2={S,M,L}Y为类标记Y∈C = {1,-1}。

1618499911394

对于给定的1618499933265计算:

1618499978692

1618499987375

1618499996865

总结

Summarization

  1. 条件概率公式:1618500113195表示在已发生事件B的情况下事件A发生的概率。
  2. 使用条件概率公式逐步导出最后参数估计的步骤需牢记。
  3. 后续会遇到很多类似的推导过程,一般都是先各种替换变复杂最后简化。

公式存在一点点问题如公式的分母可能为0。