diff --git a/必备数学基础.md b/必备数学基础.md
index d116f09..3dfa057 100644
--- a/必备数学基础.md
+++ b/必备数学基础.md
@@ -290,6 +290,8 @@
 - 令![1603802263577](assets/1603802263577.png)
 - 解得 λ 的极大似然估计值为 ![1603802356318](assets/1603802356318.png)
 
+
+
 ### 概率论基础
 
 #### 概率与频率
@@ -377,9 +379,9 @@ P(C) = 0.7+0.8-0.56 = 0.94
 
 > 衡量随机变量相对于数学期望的分散程度
 
-#### 
 
-#### 贝叶斯拼写纠错实例
+
+#### 贝叶斯拼写纠错
 
 问题：我们看到用户输入了一个不在字典中的单词，我们需要去猜测用户到底想输入的是什么
 
@@ -398,3 +400,72 @@ P(C) = 0.7+0.8-0.56 = 0.94
 
 比如用户输入tlp，到底是top还是tip？当最大似然不能作出决定性判断时（可能两边都是一半可能性），这是先验概率就可以插手给出指示，告诉我们，一般来说top出现的程度要高许多，所以他更可能想打的是top。
 
+
+
+#### 垃圾邮件过滤
+
+模型比较理论
+
+- 最大似然：最符合观测数据的（即P(D|h)最大的）最有优势
+- 奥卡姆剃刀：P(h)较大的模型有较大的优势
+- 抛一枚硬币，观察到的是“字”，根据最大似然估计的理念，我们应该猜测这枚硬币抛出“字”的概率是1，因为这个才能最大化P(D|h)的猜测
+
+实例：
+
+- 问题：给定一封邮件，判定它是否属于垃圾邮件
+
+  D来表示这封邮件，注意D是由N个单词组成。
+
+  我们用h+表示垃圾邮件，h-表示正常邮件
+
+- P(h+|D) = P(h+) * P(D|h+) / P(D)
+
+  P(h-|D) = P(h-) * P(D|h-) / P(D)
+
+  > P(h+)是先验概率，只需要计算一个邮件库垃圾邮件和正常邮件的比例；
+  >
+  > P(D|h+) 垃圾邮件中，目前这封邮件里面的词有多少个相似。D里面含有N个单词d1，d2，d3，P(D|h+) =P(d1,d2,...,dn|h+)，扩展：P(d1|h+)  * P(d2|d1,h+)  * P(d3|d2,d1, h+)* ...，垃圾邮件第一个词是d1的概率 * 垃圾邮件第一个词是d1 第二个词是d2的概率 * 垃圾邮件第一个词是d1第二个词是d2第三个词是d3的概率...
+
+- 上面的公式太麻烦了，例用朴素贝叶斯简化，朴素贝叶斯假设特征之间是独立，互不影响的。这么假设完d1，d2，d3完全没关系了，
+
+  简化为P(d1|h+)  * P(d2|h+) * P(d3|h+)  * ...
+
+- 对于P(d1|h+)  * P(d2|h+) * P(d3|h+)  * ... 只要统计di这个词在垃圾邮件中出现的概率。如：全部100封邮件中，di个词出现的概率
+
+- 再回到最上面 P(h+|D) = P(h+) * P(D|h+) / P(D)，P(D)正常异常相同，一起省略，P(h+)是先验概率，P(D|h+) 是该封信的每个词在垃圾邮件中出现的概率，这样就可以得到结果了
+
+
+
+### 数据科学的几种分布
+
+#### 正态分布
+
+> 代表宇宙中大多数的运转状态，大量的随机变量被证明正态分布的。
+
+若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布，记为N(μ, σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置，其标准差σ决定了分别的幅度。当μ = 0，σ = 1时的正态分布是标准正态分布。
+
+- 公式![1604500626232](assets/1604500626232.png)
+
+  μ是均值
+
+  σ是标准差
+
+![正态分布图](assets/1604500841697.png)
+
+#### 二项式分布
+
+> 结果只有两个
+
+投篮只有进球或者不进球，进球概率可能是0.5也可能不是，而不进球概率 = 1 - 进球概率。
+
+二项式得属性包括：
+
+- 每个试验都是独立的。
+- 试验中的结果只有两种可能：进球和不进球。
+- 总共进行了n次相同得试验。
+- 所有试验进球和不进球的概率是相同的。
+
+公式![1604501372142](assets/1604501372142.png)
+
+N * p表示分布的均值
+