Add 假设检验中的两类错误

pull/2/head
benjas 5 years ago
parent 5f5f22a8c3
commit bedd49fc60

@ -742,11 +742,54 @@
] ]
}, },
{ {
"cell_type": "code", "cell_type": "markdown",
"execution_count": null,
"metadata": {}, "metadata": {},
"outputs": [], "source": [
"source": [] "## 假设检验中的两类错误\n",
"第一类错误(弃真错误):\n",
"<ul>\n",
" <li>原假设为真时拒绝原假设\n",
" <li>第一类错误的概率为α\n",
"</ul>\n",
"第二类错误(取伪错误):\n",
"<ul>\n",
" <li>原假设为假时接受原假设\n",
" <li>第二类错误的概率为β\n",
"<img src=\"assets/20201118213423.png\" width=\"50%\">\n",
"<img src=\"assets/20201118213541.png\" width=\"50%\">"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### 实例:\n",
"一个公司有员工3000人(研究的总体)为了检验公司员工工资统计报表的真实性研究者作了50人的大样本随机抽样调查人均收入的调查结果是X(样本均值)=87个元S(标准差)=21元问能否认为统计报表中人均收入μ0=880元的数据是真实的?(显著性水平a=005)\n",
"<ul>\n",
" <li>原假设H0:调查数据871元与报表数据880元之间没有显著性差异公司员工工资均值的真实情况为880。\n",
" <li>假设H1:调查数据和报表数据之间有显著性的差异公司员工工资均值的真实情况不是880元\n",
"</ul>\n",
"**α错误出现原因**\n",
"<br>\n",
"我们只抽了一个样本而个别的样本可能是特殊的不管你的抽样多么符合科学抽样的要求。理论上讲在3000个员工中随机抽取50人作为调查样本有种构成样本的可能性相当于3000选50这个数目是很大的。这样在理论上就有存在很多个样本平均数。也就是说由于小概率事件的出现我们把本来真实的原假设拒绝了。这就是a错误出现的原因。\n",
"**β错误出现原因**\n",
"<br>\n",
"第二个问题是检验的逻辑犯了从结论推断前提的错误。命题B是由命題A经演绎推论岀来的或写作符号A→B命題C是我们在检验中所依据操作法则。如果A是真的且我们从A到B的演绎推论如果也是正确的那么B可能是真实的。相反如果结果B是真实的那么就不能得出A必定是真实的结论。这就是β错误出现的原因\n",
"**α错误概率计算**\n",
"<br>\n",
"由实际推断原理引起的,即“小概率事件不会发生”的假定所引起的,所以有理由将所有小概率事件发生的概率之和或者即显著性水平(α=0.05)看作α错误发生的概率,换言之,α错误发生的概率为检验所选择的显著性水平。如果是单侧检验,弃真错误的概率则为α/2。\n",
"\n",
"**β错误的概率计算**\n",
"<br>\n",
"犯β错误的概率的计算是比较复杂的由于β错误的出现原因是属于逻辑上的所以在总体参数不知道的情况下是无法计算它岀现概率的大小的。我们在以上例子的基础上进一步设计这个公司职员的实际工资不是880元而是是870元原假设为伪仍然假设实际工资是880元。这样我们就可以在总体均值为870元和880元两种情况下分别作出两条正态分布曲线(A线和B线)\n",
"<img src=\"assets/20201118214138.png\" width=\"50%\">\n",
"\n",
"犯β错误的概率大小就是相对正态曲线A而言图1中阴影部分的面积Z×1=1.41Z×2=5.59\n",
"<br>\n",
"查标准正态分布表可知,β=ϕ(Z×2)-ϕ(Z×1)=0.0793结果表明如果总体的真值为870元,而虚无假设为880元的话那么平均而言每100次抽样中将约有8次把真实情况当作880元被接受即犯β错误的概率大小是0.0793。\n",
"<br><br>\n",
"犯第一类错误的危害较大,由于报告了本来不存在的现象,则因此现象而衍生出的后续研究、应用的危害将是不可估量的。想对而言,第二类错误的危害则相对较小,因为研究者如果对自己的假设很有信心,可能会重新设计实验,再次来过,直到得到自己满意的结果(但是如果对本就错误的观点坚持的话,可能会演变成第一类错误)"
]
} }
], ],
"metadata": { "metadata": {

Binary file not shown.

After

Width:  |  Height:  |  Size: 153 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 121 KiB

Binary file not shown.

After

Width:  |  Height:  |  Size: 68 KiB

@ -742,11 +742,54 @@
] ]
}, },
{ {
"cell_type": "code", "cell_type": "markdown",
"execution_count": null,
"metadata": {}, "metadata": {},
"outputs": [], "source": [
"source": [] "## 假设检验中的两类错误\n",
"第一类错误(弃真错误):\n",
"<ul>\n",
" <li>原假设为真时拒绝原假设\n",
" <li>第一类错误的概率为α\n",
"</ul>\n",
"第二类错误(取伪错误):\n",
"<ul>\n",
" <li>原假设为假时接受原假设\n",
" <li>第二类错误的概率为β\n",
"<img src=\"assets/20201118213423.png\" width=\"50%\">\n",
"<img src=\"assets/20201118213541.png\" width=\"50%\">"
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"### 实例:\n",
"一个公司有员工3000人(研究的总体)为了检验公司员工工资统计报表的真实性研究者作了50人的大样本随机抽样调查人均收入的调查结果是X(样本均值)=87个元S(标准差)=21元问能否认为统计报表中人均收入μ0=880元的数据是真实的?(显著性水平a=005)\n",
"<ul>\n",
" <li>原假设H0:调查数据871元与报表数据880元之间没有显著性差异公司员工工资均值的真实情况为880。\n",
" <li>假设H1:调查数据和报表数据之间有显著性的差异公司员工工资均值的真实情况不是880元\n",
"</ul>\n",
"**α错误出现原因**\n",
"<br>\n",
"我们只抽了一个样本而个别的样本可能是特殊的不管你的抽样多么符合科学抽样的要求。理论上讲在3000个员工中随机抽取50人作为调查样本有种构成样本的可能性相当于3000选50这个数目是很大的。这样在理论上就有存在很多个样本平均数。也就是说由于小概率事件的出现我们把本来真实的原假设拒绝了。这就是a错误出现的原因。\n",
"**β错误出现原因**\n",
"<br>\n",
"第二个问题是检验的逻辑犯了从结论推断前提的错误。命题B是由命題A经演绎推论岀来的或写作符号A→B命題C是我们在检验中所依据操作法则。如果A是真的且我们从A到B的演绎推论如果也是正确的那么B可能是真实的。相反如果结果B是真实的那么就不能得出A必定是真实的结论。这就是β错误出现的原因\n",
"**α错误概率计算**\n",
"<br>\n",
"由实际推断原理引起的,即“小概率事件不会发生”的假定所引起的,所以有理由将所有小概率事件发生的概率之和或者即显著性水平(α=0.05)看作α错误发生的概率,换言之,α错误发生的概率为检验所选择的显著性水平。如果是单侧检验,弃真错误的概率则为α/2。\n",
"\n",
"**β错误的概率计算**\n",
"<br>\n",
"犯β错误的概率的计算是比较复杂的由于β错误的出现原因是属于逻辑上的所以在总体参数不知道的情况下是无法计算它岀现概率的大小的。我们在以上例子的基础上进一步设计这个公司职员的实际工资不是880元而是是870元原假设为伪仍然假设实际工资是880元。这样我们就可以在总体均值为870元和880元两种情况下分别作出两条正态分布曲线(A线和B线)\n",
"<img src=\"assets/20201118214138.png\" width=\"50%\">\n",
"\n",
"犯β错误的概率大小就是相对正态曲线A而言图1中阴影部分的面积Z×1=1.41Z×2=5.59\n",
"<br>\n",
"查标准正态分布表可知,β=ϕ(Z×2)-ϕ(Z×1)=0.0793结果表明如果总体的真值为870元,而虚无假设为880元的话那么平均而言每100次抽样中将约有8次把真实情况当作880元被接受即犯β错误的概率大小是0.0793。\n",
"<br><br>\n",
"犯第一类错误的危害较大,由于报告了本来不存在的现象,则因此现象而衍生出的后续研究、应用的危害将是不可估量的。想对而言,第二类错误的危害则相对较小,因为研究者如果对自己的假设很有信心,可能会重新设计实验,再次来过,直到得到自己满意的结果(但是如果对本就错误的观点坚持的话,可能会演变成第一类错误)"
]
} }
], ],
"metadata": { "metadata": {

Loading…
Cancel
Save