|
|
|
@ -440,7 +440,7 @@ P(C) = 0.7+0.8-0.56 = 0.94
|
|
|
|
|
|
|
|
|
|
#### 正态分布
|
|
|
|
|
|
|
|
|
|
> 代表宇宙中大多数的运转状态,大量的随机变量被证明正态分布的。
|
|
|
|
|
> 代表宇宙中大多数的运转状态,大量的随机变量被证明是正态分布的。
|
|
|
|
|
|
|
|
|
|
若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布,记为N(μ, σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分别的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。
|
|
|
|
|
|
|
|
|
@ -493,7 +493,7 @@ N * p表示分布的均值
|
|
|
|
|
|
|
|
|
|
公式![1604502244229](assets/1604502244229.png)
|
|
|
|
|
|
|
|
|
|
求一个具体的值
|
|
|
|
|
**求一个具体的值**
|
|
|
|
|
|
|
|
|
|
- 已知平均每小时出生3个婴儿,请问接下来的两小时,一个婴儿都不出生的概率?
|
|
|
|
|
|
|
|
|
@ -505,3 +505,58 @@ N * p表示分布的均值
|
|
|
|
|
|
|
|
|
|
![1604502507252](assets/1604502507252.png)
|
|
|
|
|
|
|
|
|
|
#### 均匀分布
|
|
|
|
|
|
|
|
|
|
对于骰子来说,结果是1到6,得到任何一个结果的概率是相等的,这就是均匀分布的基础。与伯努利分布不同,均匀分布的所有看你结果的n个数都是相等的。
|
|
|
|
|
|
|
|
|
|
如果变量X是均匀分布的,则密度曲线可以表示为:![1604580275940](assets/1604580275940.png) ![1604580295860](assets/1604580295860.png)
|
|
|
|
|
|
|
|
|
|
均匀分布的曲线:
|
|
|
|
|
|
|
|
|
|
![1604580312335](assets/1604580312335.png)
|
|
|
|
|
|
|
|
|
|
均与分布曲线是一个矩形,又称为矩形分布。
|
|
|
|
|
|
|
|
|
|
**求一个具体的值**:
|
|
|
|
|
|
|
|
|
|
花店每天销售的花束数量是均匀分布的,最多40,最少为10,求日销量在15到30之间的概率。
|
|
|
|
|
|
|
|
|
|
日销量在15到30之间的概率为(30-15)*(1/(40-10)) = 0.5
|
|
|
|
|
|
|
|
|
|
也可求日销量大于20的概率为 0.667
|
|
|
|
|
|
|
|
|
|
#### 卡方分布
|
|
|
|
|
|
|
|
|
|
> 通过小数量的样本容量取预估总体容量的分布情况
|
|
|
|
|
|
|
|
|
|
卡方验证统计样本的实际观测值与理论推断值之间的偏离程度
|
|
|
|
|
|
|
|
|
|
公式![1604582754737](assets/1604582754737.png)
|
|
|
|
|
|
|
|
|
|
where ![1604582794426](assets/1604582794426.png)
|
|
|
|
|
|
|
|
|
|
#### Beta分布
|
|
|
|
|
|
|
|
|
|
> 一个概率的概率分布,当不知道一个东西的具体概率时,可以给出所有概率的可能性大小
|
|
|
|
|
|
|
|
|
|
举一个简单的例子,熟悉棒球运动的都知道有一个指标就是棒球击球率(batting average),就是用一个运动员击中的球数除以击球的总数,我们一般认为0.266是正常水平的击球率,而如果击球率高达0.3就被认为是非常优秀的。
|
|
|
|
|
|
|
|
|
|
现在有一个棒球运动员,我们希望能够预测他在这一赛季中的棒球击球率是多少。你可能就会直接计算棒球击球率,用击中的数除以击球数,但是如果这个棒球运动员只打了一次,而且还命中了,那么他就击球率就是100%了,这显然是不合理的,因为根据棒球的历史信息,我们知道这个击球率应该是0.215到0.36之间才对。
|
|
|
|
|
|
|
|
|
|
最好的方法来表示这些经验(在统计中称为先验信息)就是用beta分布,这表示在我们没有看到这个运动员打球之前,我们就有了一个大概的范围。beta分布的定义域是(0,1)这就跟概率的范围是一样的。
|
|
|
|
|
|
|
|
|
|
接下来我们将这些先验信息转换为beta分布的参数,我们知道一个击球率应该是平均0.27左右,而他的范围是0.21到0.35,那么根据这个信息,我们可以取α=81,β=219。
|
|
|
|
|
|
|
|
|
|
之所以取这两个参数是因为:
|
|
|
|
|
|
|
|
|
|
- beta分布的均值是从图中可以看到分布主要落在(0.2,0.35)间,这是经验中得出的合理范围
|
|
|
|
|
- 在这个例子中,x轴就表示各个击球率的取值,x对应的y值就是这个击球率对应的概率。也就是beta分布可以看作一个概率的概率分布
|
|
|
|
|
|
|
|
|
|
![1604584217722](assets/1604584217722.png)
|
|
|
|
|
|
|
|
|
|
- α和β是一开始的参数,在这里是81和219。当α增加了1(击中一次)。β没有增加(没有漏球)。这就是我们新的beta分布Beta(81+1,219)。
|
|
|
|
|
- 当得到了更多的数据,假设一共打了300次,其中击中100,200次没击中,那么新的分布就是Beta(81+100,219+200)
|
|
|
|
|
|
|
|
|
|
![1604584439405](assets/1604584439405.png)
|
|
|
|
|
|
|
|
|
|
根据公式 α / (α+β) = (82+100) / (82+100+219+200) = 0.303,命中率提升了,蓝色曲线右移。
|