diff --git a/必备数学基础.md b/必备数学基础.md index d116f09..3dfa057 100644 --- a/必备数学基础.md +++ b/必备数学基础.md @@ -290,6 +290,8 @@ - 令![1603802263577](assets/1603802263577.png) - 解得 λ 的极大似然估计值为 ![1603802356318](assets/1603802356318.png) + + ### 概率论基础 #### 概率与频率 @@ -377,9 +379,9 @@ P(C) = 0.7+0.8-0.56 = 0.94 > 衡量随机变量相对于数学期望的分散程度 -#### -#### 贝叶斯拼写纠错实例 + +#### 贝叶斯拼写纠错 问题:我们看到用户输入了一个不在字典中的单词,我们需要去猜测用户到底想输入的是什么 @@ -398,3 +400,72 @@ P(C) = 0.7+0.8-0.56 = 0.94 比如用户输入tlp,到底是top还是tip?当最大似然不能作出决定性判断时(可能两边都是一半可能性),这是先验概率就可以插手给出指示,告诉我们,一般来说top出现的程度要高许多,所以他更可能想打的是top。 + + +#### 垃圾邮件过滤 + +模型比较理论 + +- 最大似然:最符合观测数据的(即P(D|h)最大的)最有优势 +- 奥卡姆剃刀:P(h)较大的模型有较大的优势 +- 抛一枚硬币,观察到的是“字”,根据最大似然估计的理念,我们应该猜测这枚硬币抛出“字”的概率是1,因为这个才能最大化P(D|h)的猜测 + +实例: + +- 问题:给定一封邮件,判定它是否属于垃圾邮件 + + D来表示这封邮件,注意D是由N个单词组成。 + + 我们用h+表示垃圾邮件,h-表示正常邮件 + +- P(h+|D) = P(h+) * P(D|h+) / P(D) + + P(h-|D) = P(h-) * P(D|h-) / P(D) + + > P(h+)是先验概率,只需要计算一个邮件库垃圾邮件和正常邮件的比例; + > + > P(D|h+) 垃圾邮件中,目前这封邮件里面的词有多少个相似。D里面含有N个单词d1,d2,d3,P(D|h+) =P(d1,d2,...,dn|h+),扩展:P(d1|h+) * P(d2|d1,h+) * P(d3|d2,d1, h+)* ...,垃圾邮件第一个词是d1的概率 * 垃圾邮件第一个词是d1 第二个词是d2的概率 * 垃圾邮件第一个词是d1第二个词是d2第三个词是d3的概率... + +- 上面的公式太麻烦了,例用朴素贝叶斯简化,朴素贝叶斯假设特征之间是独立,互不影响的。这么假设完d1,d2,d3完全没关系了, + + 简化为P(d1|h+) * P(d2|h+) * P(d3|h+) * ... + +- 对于P(d1|h+) * P(d2|h+) * P(d3|h+) * ... 只要统计di这个词在垃圾邮件中出现的概率。如:全部100封邮件中,di个词出现的概率 + +- 再回到最上面 P(h+|D) = P(h+) * P(D|h+) / P(D),P(D)正常异常相同,一起省略,P(h+)是先验概率,P(D|h+) 是该封信的每个词在垃圾邮件中出现的概率,这样就可以得到结果了 + + + +### 数据科学的几种分布 + +#### 正态分布 + +> 代表宇宙中大多数的运转状态,大量的随机变量被证明正态分布的。 + +若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布,记为N(μ, σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分别的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。 + +- 公式![1604500626232](assets/1604500626232.png) + + μ是均值 + + σ是标准差 + +![正态分布图](assets/1604500841697.png) + +#### 二项式分布 + +> 结果只有两个 + +投篮只有进球或者不进球,进球概率可能是0.5也可能不是,而不进球概率 = 1 - 进球概率。 + +二项式得属性包括: + +- 每个试验都是独立的。 +- 试验中的结果只有两种可能:进球和不进球。 +- 总共进行了n次相同得试验。 +- 所有试验进球和不进球的概率是相同的。 + +公式![1604501372142](assets/1604501372142.png) + +N * p表示分布的均值 +