生物统计学-卡方检验

上传人:li****ng 文档编号:176594071 上传时间:2022-12-23 格式:PPT 页数:31 大小:227.50KB
收藏 版权申诉 举报 下载
生物统计学-卡方检验_第1页
第1页 / 共31页
生物统计学-卡方检验_第2页
第2页 / 共31页
生物统计学-卡方检验_第3页
第3页 / 共31页
资源描述:

《生物统计学-卡方检验》由会员分享,可在线阅读,更多相关《生物统计学-卡方检验(31页珍藏版)》请在装配图网上搜索。

1、第五章 卡方检验应用统计学应用统计学 卡方(c2)分布设总体服从设总体服从正态分布正态分布N (,2),X1,X2,Xn为来自该正态总体的样本,则样本为来自该正态总体的样本,则样本方差方差 s2 的分布为的分布为将将称为自由度为称为自由度为的卡方分布的卡方分布)1()1(222nsnc 主要适用于对拟合优度检验和独立性主要适用于对拟合优度检验和独立性检验,以及对总体方差的估计和检验等检验,以及对总体方差的估计和检验等 选择容量为选择容量为n 的的简单随机样本简单随机样本计算样本方差计算样本方差S2计算卡方值计算卡方值c c2=(n-1)S2/2计算出所有的计算出所有的c c 2值值不同容量样本

2、的抽样分布不同容量样本的抽样分布总体总体卡方(c2)分布卡方(c2)分布的特点不同容量样本的抽样分布不同容量样本的抽样分布1 1、c c2分布是一个以自由度分布是一个以自由度n为参数为参数的的分布族分布族,自由度,自由度n决定了分布的决定了分布的形状,对于不同的形状,对于不同的n有不同的卡方有不同的卡方分布分布2 2、卡方分布于区间、卡方分布于区间0,)0,),是一种,是一种非对称分布。一般为非对称分布。一般为正偏分布正偏分布3 3、卡方分布的偏斜度随自由度降低而增大,当自由度、卡方分布的偏斜度随自由度降低而增大,当自由度为为1 1时,曲线以纵轴为渐近线;当自由度增大的时,时,曲线以纵轴为渐近

3、线;当自由度增大的时,分布曲线渐趋近左右对称,当自由度分布曲线渐趋近左右对称,当自由度大于等于大于等于3030的的时候,卡方分布接近时候,卡方分布接近正态分布正态分布4、卡方分布具有卡方分布具有“可加性可加性”X、Y 独立,独立,X c c2(n1),Y c c2(n2)则则 X+Y c c2(n1+n2)卡方(c2)分布的函数CHIDIST:自由度为自由度为n的卡方分布在的卡方分布在x点处的点处的单尾概率单尾概率CHIINV:返回自由度为返回自由度为n的卡方分布的单尾概率函数的的卡方分布的单尾概率函数的逆函数逆函数xP2cCHIDISTX 需要计算分布的数字需要计算分布的数字(X0)Degr

4、ees_freedom 自由度自由度 CHIINV Probability 卡方卡方分布的分布的单尾单尾概率概率Degrees_freedom 自由度自由度 c c2检验是以检验是以c c2分布为基础的一种假设检验方分布为基础的一种假设检验方法,主要用于分类变量,根据样本数据推断法,主要用于分类变量,根据样本数据推断总体的分布与期望分布是否有显著差异,或总体的分布与期望分布是否有显著差异,或推断两个分类变量是否相关或相互独立。推断两个分类变量是否相关或相互独立。卡方检验基础卡方检验基础c c2值的计算:值的计算:22()AEEc由英国统计学家由英国统计学家Karl Pearson首次提出,故被

5、首次提出,故被称为称为Pearson c c2。卡方检验基础卡方检验基础 检验某个连续变量的分布是否与某种理论分布一致,如是否符合正态检验某个连续变量的分布是否与某种理论分布一致,如是否符合正态分布等分布等 检验某个分类变量各类的出现概率是否等于指定概率检验某个分类变量各类的出现概率是否等于指定概率 检验两个分类变量是否相互独立,如吸烟是否与呼吸道疾病有关检验两个分类变量是否相互独立,如吸烟是否与呼吸道疾病有关 检验控制某种或某几种分类变量因素的作用之后,另两个分类变量是检验控制某种或某几种分类变量因素的作用之后,另两个分类变量是否独立,如上例控制年龄、性别之后,吸烟是否与呼吸道疾病有关否独立

6、,如上例控制年龄、性别之后,吸烟是否与呼吸道疾病有关 检验两种方法的结果是否一致,如两种诊断方法对同一批人进行诊断,检验两种方法的结果是否一致,如两种诊断方法对同一批人进行诊断,其诊断结果是否一致其诊断结果是否一致卡方检验基础用途卡方检验基础用途卡方检验的用途卡方检验的用途一个样本方差和一个样本方差和总体方差是否相同总体方差是否相同同质性检验同质性检验适合性检验适合性检验独立性检验独立性检验观察值和理论观察值和理论值是否符合值是否符合两个或两个以两个或两个以上因素之间是上因素之间是否相关否相关计数计数资料资料和和属性属性资料资料一个样本方差的同质性检验从从标准正态总体中标准正态总体中抽取抽取k

7、个独立个独立u2之和为卡之和为卡方方其其服从自由度为服从自由度为的卡方分布的卡方分布22221cxx当用样本平均数估计总体平均数时,有:当用样本平均数估计总体平均数时,有:2221xxc将样本方差代入,则:将样本方差代入,则:222)1(csk 卡方函数的使用卡方函数的使用假设假设假设假设222020,:cc,其否定区为:适用右尾检验H2122020,:cc,其否定区为:适用左尾检验H假设假设22222122020,:cccc和其否定区为:,适用双尾检验H例:例:已知某农田受到重金属污染,经抽样测定铅浓度分别为已知某农田受到重金属污染,经抽样测定铅浓度分别为:4.2,4.5,3.6,4.7,4

8、.0,3.8,3.7,4.2(ug/g),4.2,4.5,3.6,4.7,4.0,3.8,3.7,4.2(ug/g),方差为方差为0.150,0.150,试检验受到试检验受到污染的农田铅浓度的方差是不是和正常浓度铅浓度的方差()污染的农田铅浓度的方差是不是和正常浓度铅浓度的方差()相同相同分析:分析:1 1)一)一个样本方差同质性检验个样本方差同质性检验 2 2)事先不知道受污染的农田与正常农田的铅浓度事先不知道受污染的农田与正常农田的铅浓度 方差的大小,故方差的大小,故双尾检验双尾检验 (2 2)选取显著水平)选取显著水平05.0解:解:(1 1)假设)假设 即受到污染的农田铅浓度的方差与即

9、受到污染的农田铅浓度的方差与正常农田铅浓度的方差相同,对正常农田铅浓度的方差相同,对065.0:20H065.0:2AH (3 3)检验计算)检验计算15.16065.0150.018)1(222csk (4 4)推断:)推断:当当df8-18-17 7,由,由CHIINV(0.025,7),即,即 2025.02cc 否定否定H H0 0,接受,接受H HA A,即样本方差与总体方差,即样本方差与总体方差试不同质的,认为受到污染的农田铅浓度的方差与正试不同质的,认为受到污染的农田铅浓度的方差与正常农田的方差有显著差异常农田的方差有显著差异卡方检验的原理和方法卡方检验的原理和方法Pearson

10、定理定理:当(当(P1 1,P2 2,,Pk k)是总体的真实)是总体的真实概率分布时,统计量概率分布时,统计量kiiiinpnpn122c随着随着n的增加渐近于自由度的增加渐近于自由度df=k-1的卡方分布的卡方分布。其中。其中P1 1,P2 2,,Pk k为为k种不同属性出现的频率,种不同属性出现的频率,n为样为样本容量,本容量,ni i为样本中第为样本中第i种属性出现的次数,是观种属性出现的次数,是观测值,记为测值,记为O Oi i,pi i为第为第i i种属性出现的概率,种属性出现的概率,npi i则则可以看成理论上该样本第可以看成理论上该样本第i种属性出现的次数,理种属性出现的次数,

11、理论值记为:论值记为:Ei i,即,即)1(,122kdfEEOkiiiic卡方检验的原理和方法卡方检验的原理和方法Pearson定理的基本含义定理的基本含义:如果样本确实是抽自由(如果样本确实是抽自由(P1 1,P2 2,,Pk k)代)代表的总体,表的总体,Oi i和和Ei i之间的差异就只是随机误差,之间的差异就只是随机误差,则则Pearson统计量可视为服从卡方分布统计量可视为服从卡方分布 反之,如果样本不是抽自由(反之,如果样本不是抽自由(P1 1,P2 2,,Pk k)代表的总体,代表的总体,Oi i和和Ei i之间的差异就不只是是随机之间的差异就不只是是随机误差,从而使计算出的统

12、计量有偏大的趋势误差,从而使计算出的统计量有偏大的趋势 因此,对因此,对Pearson统计量进行统计量进行单尾检验单尾检验(即(即右尾检验右尾检验)可用于判断离散型资料的观测值与理)可用于判断离散型资料的观测值与理论值是不是吻合论值是不是吻合卡方检验的原理和方法卡方检验的原理和方法统计假设:统计假设:H0:观测值与理论值的差异是由:观测值与理论值的差异是由随机误差随机误差引起引起 HA A:观测值与理论值之间有:观测值与理论值之间有真实差异真实差异 所以卡方值是度量实际观测值与理论值偏南所以卡方值是度量实际观测值与理论值偏南程度的一个统计量程度的一个统计量 卡方值越卡方值越小小,表明观测值与理

13、论值越,表明观测值与理论值越接近接近 卡方值越卡方值越大大,表明观测值与理论值,表明观测值与理论值相差越大相差越大 卡方值为卡方值为0 0,表明,表明H0严格成立,且它不会有下侧严格成立,且它不会有下侧否定区,只能进行否定区,只能进行右尾检验右尾检验卡方检验的原理和方法卡方检验的原理和方法 由于离散型资料的卡方检验只是由于离散型资料的卡方检验只是近似地服从连近似地服从连续型续型变量的卡方分布,所以在对离散型资料进行变量的卡方分布,所以在对离散型资料进行卡方检验计算的时,结果常常偏低,特别是当自卡方检验计算的时,结果常常偏低,特别是当自由度由度df=1=1时,有较大偏差,为此需要进行矫正:时,有

14、较大偏差,为此需要进行矫正:当自由度当自由度df1时,与连续型随机变量卡方分相时,与连续型随机变量卡方分相近似,这时可以近似,这时可以不做连续性矫正不做连续性矫正 注意:注意:要求各个组内的理论次数要求各个组内的理论次数不小于不小于5 5,如某,如某组理论次数小于组理论次数小于5 5,则应把它与其相邻的一组或,则应把它与其相邻的一组或几组合并,知道理论次数大于几组合并,知道理论次数大于5 5为止为止kiiiicEEO1225.0c适合性检验适合性检验 适合性检验(吻合性检验或拟合优度检验)适合性检验(吻合性检验或拟合优度检验)步骤:步骤:1.1.提出无效假设,即认为观测值和理论值之间提出无效假

15、设,即认为观测值和理论值之间没有差异没有差异 2.2.规定显著性水平规定显著性水平 3.3.计算样本卡方值计算样本卡方值 4.4.根据规定的显著水平和自由度计算出卡方值,根据规定的显著水平和自由度计算出卡方值,再和实际计算的卡方值进行比较再和实际计算的卡方值进行比较例:例:有一鲤鱼遗传试验,以荷包鲤鱼(红色,隐性)与湘江有一鲤鱼遗传试验,以荷包鲤鱼(红色,隐性)与湘江野鲤(青灰色,显性)杂交,其野鲤(青灰色,显性)杂交,其F2F2获得下表的所列的体色分获得下表的所列的体色分离尾数,问这一资料的实际观测值是否符合孟德尔一对等位离尾数,问这一资料的实际观测值是否符合孟德尔一对等位基因的遗传规律?基

16、因的遗传规律?鲤鱼遗传试验鲤鱼遗传试验F2F2观测结果观测结果分析:分析:1 1)适合性检验问题适合性检验问题 2 2)自由度为自由度为(2-1)=1,需要连续性矫正,需要连续性矫正 (2 2)选取显著水平)选取显著水平05.0解:解:(1 1)假设)假设 鲤鱼体色鲤鱼体色F2F2性状分离性状分离符合符合3:1 3:1 对对 鲤鱼体色鲤鱼体色F2F2性状分离性状分离不不符合符合3:1 3:1:0H:AH体色体色青灰色青灰色红色红色总数总数F2F2观测观测尾数尾数15031503999916021602(3 3)检验计算:)检验计算:计算鲤鱼体色的理论值计算鲤鱼体色的理论值63.3015.012

17、2kiiiicEEOc体色体色青灰色青灰色红色红色总数总数F2F2理论理论尾数尾数1201.51201.5400.5400.516021602(4 4)推断:)推断:由由CHIDIST(301.63,1)=1.45E-67,CHIDIST(301.63,1)=1.45E-67,即即 故应否定故应否定H0,接受,接受HA,认为鲤鱼体色,认为鲤鱼体色F2F2性状比不符合性状比不符合3:13:1比率比率 01.063.3012cP(4 4)推断:)推断:由由CHIINV(0.025,1)=5.02,CHIINV(0.025,1)=5.02,即即 故应否定故应否定H0,接受,接受HA,认为鲤鱼体色,认

18、为鲤鱼体色F2F2性状比不符合性状比不符合3:13:1比率比率 05.0,2)1(05.02Pc即cc独立性检验独立性检验步骤:步骤:1.1.提出无效假设,即认为所观测的各属性之间提出无效假设,即认为所观测的各属性之间没有关联没有关联 2.2.规定显著性水平规定显著性水平 3.3.根据无效假设计算出理论数根据无效假设计算出理论数 4.4.根据规定的显著水平和自由度计算出卡方值,根据规定的显著水平和自由度计算出卡方值,再和计算的卡方值进行比较。再和计算的卡方值进行比较。如果接受假设,则说明因子之间无相关联,如果接受假设,则说明因子之间无相关联,是相互独立的是相互独立的 如果拒绝假设,则说明因子之

19、间的关联是显如果拒绝假设,则说明因子之间的关联是显著的,不独立著的,不独立一、一、2X2列联表的独立性检验列联表的独立性检验设设A A、B B是一个随机试验中的两个事件,其中是一个随机试验中的两个事件,其中A A可能可能出现出现r1 1、r2 2个结果,个结果,B B可能出现可能出现c1 1、c2 2个结果,两个结果,两因子相互作用形成因子相互作用形成4 4个数,分别以个数,分别以O1111、O1212、O2121、O2222表示,即表示,即 2 2X2 2列联表的一般形式列联表的一般形式c1c2总和r1r2O11O21O12O22R1O11O12R2O21O22总和C1O11O21C2O12

20、O22T一、一、2X2列联表的独立性检验列联表的独立性检验2 2X2 2列联表的卡方检验步骤:列联表的卡方检验步骤:1 1、提出无效假设、提出无效假设H0:事件:事件A和和B无关,即事件无关,即事件A和和B相互独立,同时给出相互独立,同时给出HA:事件:事件A和和B有关联关系有关联关系2 2、给出显著水平、给出显著水平3 3、依据、依据H0,可以推算出理论值,计算卡方值,可以推算出理论值,计算卡方值4 4、进行推断、进行推断例:例:现随机抽样对吸烟人群和不吸烟人群是否患有气管炎病现随机抽样对吸烟人群和不吸烟人群是否患有气管炎病进行了调查,其调查结果如下表,试检验吸烟与患气管炎病进行了调查,其调

21、查结果如下表,试检验吸烟与患气管炎病有无关联?有无关联?不同人群患气管炎病调查不同人群患气管炎病调查分析:分析:1 1)独立性检验问题独立性检验问题 2 2)自由度为自由度为df=(2-1)*(2-1)=1,需要,需要连续性矫正连续性矫正 (2 2)选取显著水平)选取显著水平05.0解:解:(1 1)假设)假设 吸烟与患气管炎无关吸烟与患气管炎无关 对对 吸烟与患气管炎有关联吸烟与患气管炎有关联 :0H:AH不同人群患病不患病总和Ri吸烟人群50250300不吸烟人群5195200总和Cj55445T500(3 3)检验计算:)检验计算:计算联表中的各项的理论次数计算联表中的各项的理论次数17

22、4.235.0122kiiiicEEOc不同人群患病不患病总和Ri吸烟人群3333267267300不吸烟人群2222178178200总和Cj55445T500(4 4)推断:)推断:由由CHIDIST(23.174,1)=1.48E-6,CHIDIST(23.174,1)=1.48E-6,即即 故应否定故应否定H0,接受,接受HA,认为吸烟与患气管病,认为吸烟与患气管病极显著极显著相关相关 01.0174.232cP(4 4)推断:)推断:由由CHIINV(0.025,1)=6.63,CHIINV(0.025,1)=6.63,即即 故应否定故应否定H0,接受,接受HA,认为吸烟与患气管炎病

23、密切相关,认为吸烟与患气管炎病密切相关 05.0,2)1(05.02Pc即cc二、二、rXc列联表的独立性检验列联表的独立性检验rXc列联表是指列联表是指r2,2,c22的计数资料,一般形式如下的计数资料,一般形式如下 rXc列联表的一般形式列联表的一般形式12c总和12rO11O21Or1O12O22Or2O1cO2cOrcR1R2总和C1C2CcT二、二、rXc列联表的独立性检验列联表的独立性检验 rXc列联表中各项理论频率的计算方法如列联表中各项理论频率的计算方法如2X2列联列联表,即:表,即:Eij=(RiCj/T),由于自由度,由于自由度df(r-1)(c-1),由由于于r2,c2,

24、故自由度,故自由度df1,因而不需要进行连续性矫因而不需要进行连续性矫正,其计算公式如下:正,其计算公式如下:122jiijCROTc例:例:某医院用碘剂治疗地方性甲状腺肿,不同年龄的治疗效某医院用碘剂治疗地方性甲状腺肿,不同年龄的治疗效果如下表,试检验不同年龄的治疗效果有无差异?果如下表,试检验不同年龄的治疗效果有无差异?不同年龄用碘剂治疗甲状腺肿效果比较不同年龄用碘剂治疗甲状腺肿效果比较分析:分析:1 1)独立性检验问题独立性检验问题 2 2)自由度为自由度为df=(4-1)*(3-1)=6,不不需要需要连续性矫正连续性矫正 (2 2)选取显著水平)选取显著水平05.0解:解:(1 1)假

25、设)假设 治疗效果与年龄无关治疗效果与年龄无关 对对 治疗效果与年龄有关治疗效果与年龄有关 :0H:AH年龄年龄治愈治愈显效显效好转好转无效无效总和总和1111303067910591313150503223204795050岁以上岁以上101123549总和总和109435314219(3 3)检验计算:)检验计算:计算联表中的各项的理论次数计算联表中的各项的理论次数年龄年龄治愈治愈显效显效好转好转无效无效总和总和1111303045.2917.8720.025.82913131505039.3215.5119.125.05795050岁以上岁以上24.399.6211.863.1349总和

26、总和109435314219988.46122jiijCROTc(4 4)推断:)推断:由由CHIDIST(46.988,6)=1.88E-8,CHIDIST(46.988,6)=1.88E-8,即即 故应否定故应否定H0,接受,接受HA,认为治疗效果与年龄,认为治疗效果与年龄极显著极显著相关相关 01.0174.232cP卡方(c2)检验的函数CHITEST:相关性检验函数,得到相关性的概率值相关性检验函数,得到相关性的概率值CHITESTActual_range 观察值的数据区域观察值的数据区域 Expected_range 行列汇总的乘积与总计值之比率的行列汇总的乘积与总计值之比率的数据

27、区域数据区域 不同年龄用碘剂治疗甲状腺肿效果比较不同年龄用碘剂治疗甲状腺肿效果比较年龄年龄治愈治愈显效显效好转好转无效无效总和总和1111303067910591313150503223204795050岁以上岁以上101123549总和总和109435314219计算联表中的各项的理论次数计算联表中的各项的理论次数年龄年龄治愈治愈显效显效好转好转无效无效总和总和1111303045.2917.8720.025.82913131505039.3215.5119.125.05795050岁以上岁以上24.399.6211.863.1349总和总和109435314219Actual_rangeExpected_range CHITEST课 后 作 业书上书上8484页:页:习题习题

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!