{ "cells": [ { "cell_type": "markdown", "metadata": {}, "source": [ "## 方差分析" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "#### 方差分析概述\n", "检验多个总体均值是否相等,通过分析察数据的误差判断各总体均值是否相等\n", "\n", "下图,所有的样本都在一个相似的正态分布区间\n", "\n", "下图,所有的样本都是正态分布,但不在同一分布区间\n", "" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**实例:**\n", "\n", "为了对几个行业的服务消费者协会在四个行业分别抽取了不同的企业作为样本。最近一年中消费者对总共23家企业投诉的次数如下表\n", "\n", "**要做的事:**\n", "\n", "分析四个行业之间的服务质量是否有显著差异,也就是要判断“行业”对“投诉次数”是否有显著影响\n", "\n", "如果它们的均值相等,就意味着“行业”对投诉次数是没有影响的,即它们之间的服务质量没有显著差异:如果均值不全相等,则意味着“行业”对投诉次数是有影响的,它们之间的服务质量有显著差异" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**相关概念:**\n", "\n", "\n", "**散点图观察**\n", "\n", "\n", "\n", "**但是**\n", "\n", "\n", "### 基本思想:\n", "\n", "\n", "### 随机误差:\n", "\n", "\n", "### 系统误差:\n", "\n", "\n", "### 组内方差:\n", "\n", "\n", "### 组间方差:\n", "\n", "\n", "### 方差的比较:\n", "" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 方差分析计算方法\n", "\n", "### 方差分析的前提:\n", "\n", "**每个总体都应服从正态分布**\n", "\n", "\n", "**各个总体的方差必须相同**\n", "\n", "\n", "**观察值是独立**\n", "\n", "\n", "**在上述假定条件下,判断行业对投诉次数是否有显著影响,实际上也就是检验具有同方差的四个正态总体的均值是否相等**\n", "\n", "**原假设成立,即H0:μ1=μ2=μ3=μ4**\n", "
四个行业被投诉次数的均值都相等意味着每个样本都来自均值为μ、方差为σ^2的同一正态总体\n", "\n", "**备择假设成立,即H1:μ1=μ2=μ3=μ4不完全相等**\n", "
至少有一个总体的均值是不同的,四个样本分别来自均值不同的四个正态总体\n", "" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "### 单因素方差分析\n", "模型中有一个自变量(因素)和一个观测变量其实就是关干在一个影响因素的不同水平下,观测变量均值差异的显著性检验。\n", "\n", "**提出假设**\n", "
HO: μ1= μ2=...=μk,自变量对因变量没有显著影响\n", "
即H1:μ1μ2...u4不完全相等,自变量对因变量有显著影响\n", "\n", "拒绝原假设,只表明至少有两个总体的均值不相等,并不意味着所有的均值都不相等\n", "\n", "#### 检验的统计量\n", "\n", "\n", "**水平的均值:**\n", "\n", "定从第i个总体中抽取一个容量为ni的简单随机样本,第ⅰ个总体的样本均值为该样本的全部观察值总和除以观察值的个数\n", " (i=1,2,...,k)\n", "\n", "式中:ni为第i个总体的样本观察值个数\n", " xij为第i个总体的第j个观察值\n", " \n", "**全部观察值的总均值:**\n", "\n", "全部观察值的总和除以观察值的总个数\n", "\n", "式中:n=n1+n2+...+nk\n", "" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "**总误差平方和SST**\n", "\n", "全部观察值与总平均值的离差平方和,反映全部观察值的离散状况\n", "\n", "\n", "\n", "**水平项平方和SSA**\n", "\n", "各组平均值与总平均值的离差平方和,反映各总体的样本均值之间的差异程度,又称组间平方和,该平方和既包括随机误差,也包括系统误差\n", "\n", "\n", "**误差项平方和SSE**\n", "\n", "每个水平或组的各样本数据与其组平均值的离差平方和,反映每个样本各观察值的离散状况,又称组内平方和,该平方和反映的是随机误差的大小\n", "\n", "\n", "**平方和之间的关系**\n", "\n", "总离差平方和(SST、误差项离差平方和(SSE)、水平项离差平方和(SSA)之间的关系\n", "\n", "\n", "**SST反映全部数据总的误差程度;SSE反映随机误差的大小;SSA反映随机误差和系统误差的大小**\n", "\n", "如果原假设成立,则表明没有系统误差,组间平方和SSA除以自由度后的均方与组内平方和SSE和除以自由度后的均方差异就不会太大;如果组间均方显著地大于组内均方,说明各水平(总体)之间的差异不仅有随机误差,还有系统误差,判断因素的水平是否对其观察值有影响,实际上就是比较组间方差与组内方差之间差异的大小\n", "\n", "**均方MS**\n", "\n", "各误差平方和的大小与观察值的多少有关,为消除观察值多少对误差平方和大小的影响,需要将其平均,这就是均方,也称为方差,计算方法是用误差平方和除以相应的自由度\n", "\n", "**各自自由度**\n", "\n", "\n", "**F统计量**\n", "\n", "将MSA(组间方差,SSA的均方,记为MSA)和MSE(组内方差,SSE的均方,记为MSE)进行对比,即得到所需要的检验统计量F\n", "\n", "\n", "**F分布**\n", "\n", "\n", "根据给定的显著性水平,在F分布表中查找与第一自由度df1=k-1、第二自由度df2=n-k相应的临界值\n", "\n", "\n", "**方差分析表:**\n", "" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ "## 方差分析中的多重比较\n", "\n", "### 两组比较\n", "**实例:**\n", "\n", "在评价某药物耐受性及安全性的期临床试验中,对符合纳入标准的30名健康自愿者随机分为3组每组10名,各组注射剂量分别为0.5U、1U、2U,观察48小时部分凝血活酶时间(s)试问不同剂量的部分凝血活酶时间有无不同?\n", "20201122181401.png\n", "\n", "提出假设:H0:μ1=μ2=μ3; H1:μ1,p2,μ3不全相同,显著水平a=0.05\n", "\n", "20201122181607.png\n", "\n", "F0.05(2,26)=2.52, F>F0.05(2,26), P<0.05\n", "拒绝H0。三种不同剂量48小时部分凝血活酶时间不全相同。\n", "\n", "### 多重比较\n", "\n", "\n", "**LSD方法**\n", "\n", "对k组中的两组的平均数进行比较,当两组样本容量分别为ni,nj都为时,有\n" ] } ], "metadata": { "kernelspec": { "display_name": "Python 3", "language": "python", "name": "python3" }, "language_info": { "codemirror_mode": { "name": "ipython", "version": 3 }, "file_extension": ".py", "mimetype": "text/x-python", "name": "python", "nbconvert_exporter": "python", "pygments_lexer": "ipython3", "version": "3.7.3" } }, "nbformat": 4, "nbformat_minor": 2 }