|
|
@ -742,11 +742,54 @@
|
|
|
|
]
|
|
|
|
]
|
|
|
|
},
|
|
|
|
},
|
|
|
|
{
|
|
|
|
{
|
|
|
|
"cell_type": "code",
|
|
|
|
"cell_type": "markdown",
|
|
|
|
"execution_count": null,
|
|
|
|
|
|
|
|
"metadata": {},
|
|
|
|
"metadata": {},
|
|
|
|
"outputs": [],
|
|
|
|
"source": [
|
|
|
|
"source": []
|
|
|
|
"## 假设检验中的两类错误\n",
|
|
|
|
|
|
|
|
"第一类错误(弃真错误):\n",
|
|
|
|
|
|
|
|
"<ul>\n",
|
|
|
|
|
|
|
|
" <li>原假设为真时拒绝原假设\n",
|
|
|
|
|
|
|
|
" <li>第一类错误的概率为α\n",
|
|
|
|
|
|
|
|
"</ul>\n",
|
|
|
|
|
|
|
|
"第二类错误(取伪错误):\n",
|
|
|
|
|
|
|
|
"<ul>\n",
|
|
|
|
|
|
|
|
" <li>原假设为假时接受原假设\n",
|
|
|
|
|
|
|
|
" <li>第二类错误的概率为β\n",
|
|
|
|
|
|
|
|
"<img src=\"assets/20201118213423.png\" width=\"50%\">\n",
|
|
|
|
|
|
|
|
"<img src=\"assets/20201118213541.png\" width=\"50%\">"
|
|
|
|
|
|
|
|
]
|
|
|
|
|
|
|
|
},
|
|
|
|
|
|
|
|
{
|
|
|
|
|
|
|
|
"cell_type": "markdown",
|
|
|
|
|
|
|
|
"metadata": {},
|
|
|
|
|
|
|
|
"source": [
|
|
|
|
|
|
|
|
"### 实例:\n",
|
|
|
|
|
|
|
|
"一个公司有员工3000人(研究的总体),为了检验公司员工工资统计报表的真实性,研究者作了50人的大样本随机抽样调查,人均收入的调查结果是:X(样本均值)=87个元;S(标准差)=21元,问能否认为统计报表中人均收入μ0=880元的数据是真实的?(显著性水平a=005)\n",
|
|
|
|
|
|
|
|
"<ul>\n",
|
|
|
|
|
|
|
|
" <li>原假设H0:调查数据871元与报表数据880元之间没有显著性差异,公司员工工资均值的真实情况为880。\n",
|
|
|
|
|
|
|
|
" <li>假设H1:调查数据和报表数据之间有显著性的差异,公司员工工资均值的真实情况不是880元,\n",
|
|
|
|
|
|
|
|
"</ul>\n",
|
|
|
|
|
|
|
|
"**α错误出现原因**\n",
|
|
|
|
|
|
|
|
"<br>\n",
|
|
|
|
|
|
|
|
"我们只抽了一个样本,而个别的样本可能是特殊的,不管你的抽样多么符合科学抽样的要求。理论上讲,在3000个员工中随机抽取50人作为调查样本,有种构成样本的可能性,相当于3000选50,这个数目是很大的。这样,在理论上就有存在很多个样本平均数。也就是说,由于小概率事件的出现,我们把本来真实的原假设拒绝了。这就是a错误出现的原因。\n",
|
|
|
|
|
|
|
|
"**β错误出现原因**\n",
|
|
|
|
|
|
|
|
"<br>\n",
|
|
|
|
|
|
|
|
"第二个问题是检验的逻辑犯了从结论推断前提的错误。命题B是由命題A经演绎推论岀来的,或写作符号A→B,命題C是我们在检验中所依据操作法则。如果A是真的,且我们从A到B的演绎推论如果也是正确的,那么B可能是真实的。相反,如果结果B是真实的,那么就不能得出A必定是真实的结论。这就是β错误出现的原因\n",
|
|
|
|
|
|
|
|
"**α错误概率计算**\n",
|
|
|
|
|
|
|
|
"<br>\n",
|
|
|
|
|
|
|
|
"由实际推断原理引起的,即“小概率事件不会发生”的假定所引起的,所以有理由将所有小概率事件发生的概率之和或者即显著性水平(α=0.05)看作α错误发生的概率,换言之,α错误发生的概率为检验所选择的显著性水平。如果是单侧检验,弃真错误的概率则为α/2。\n",
|
|
|
|
|
|
|
|
"\n",
|
|
|
|
|
|
|
|
"**β错误的概率计算**\n",
|
|
|
|
|
|
|
|
"<br>\n",
|
|
|
|
|
|
|
|
"犯β错误的概率的计算是比较复杂的,由于β错误的出现原因是属于逻辑上的,所以在总体参数不知道的情况下是无法计算它岀现概率的大小的。我们在以上例子的基础上进一步设计:这个公司职员的实际工资不是880元,而是是870元,原假设为伪,仍然假设实际工资是880元。这样我们就可以在总体均值为870元和880元两种情况下,分别作出两条正态分布曲线(A线和B线)\n",
|
|
|
|
|
|
|
|
"<img src=\"assets/20201118214138.png\" width=\"50%\">\n",
|
|
|
|
|
|
|
|
"\n",
|
|
|
|
|
|
|
|
"犯β错误的概率大小就是相对正态曲线A而言,图1中阴影部分的面积:Z×1=1.41,Z×2=5.59\n",
|
|
|
|
|
|
|
|
"<br>\n",
|
|
|
|
|
|
|
|
"查标准正态分布表可知,β=ϕ(Z×2)-ϕ(Z×1)=0.0793结果表明,如果总体的真值为870元,而虚无假设为880元的话,那么,平均而言每100次抽样中,将约有8次把真实情况当作880元被接受,即犯β错误的概率大小是0.0793。\n",
|
|
|
|
|
|
|
|
"<br><br>\n",
|
|
|
|
|
|
|
|
"犯第一类错误的危害较大,由于报告了本来不存在的现象,则因此现象而衍生出的后续研究、应用的危害将是不可估量的。想对而言,第二类错误的危害则相对较小,因为研究者如果对自己的假设很有信心,可能会重新设计实验,再次来过,直到得到自己满意的结果(但是如果对本就错误的观点坚持的话,可能会演变成第一类错误)"
|
|
|
|
|
|
|
|
]
|
|
|
|
}
|
|
|
|
}
|
|
|
|
],
|
|
|
|
],
|
|
|
|
"metadata": {
|
|
|
|
"metadata": {
|
|
|
|