第五章假设检验

上传人:痛*** 文档编号:171984057 上传时间:2022-11-30 格式:PPT 页数:43 大小:1.18MB
收藏 版权申诉 举报 下载
第五章假设检验_第1页
第1页 / 共43页
第五章假设检验_第2页
第2页 / 共43页
第五章假设检验_第3页
第3页 / 共43页
资源描述:

《第五章假设检验》由会员分享,可在线阅读,更多相关《第五章假设检验(43页珍藏版)》请在装配图网上搜索。

1、第五章第五章第五章第五章 均数差异显著性检验均数差异显著性检验均数差异显著性检验均数差异显著性检验t t检验检验检验检验Test of significance of mean differenceTest of significance of mean differencetest of test of t t 第一节第一节 显著性检验的意义显著性检验的意义 第二节第二节 样本平均数的抽样分布与样本平均数的抽样分布与t t分布分布 第三节第三节 显著性检验的基本步骤显著性检验的基本步骤 第四节第四节 显著平准与两类误差显著平准与两类误差 第五节第五节 样本均数与总体均数差异显著性检验样本均数

2、与总体均数差异显著性检验t t检验检验 第六节第六节 两样本均数差异显著性检验两样本均数差异显著性检验t t检验检验 第七节第七节 百分数资料差异显著性检验百分数资料差异显著性检验 第八节第八节 平均数的置信区间平均数的置信区间第五章 均数差异显著性检验 检验学习要求学习要求 了解显著性检验的意义及均数差异显著性检验中u检验和t检验各自应用的条件。理解显著性检验原理,尤其是接受或否定无效假设的原理;掌握总体均数和样本均数,两样本均数(配对和非配对),百分数资料差异显著性检验的步骤和方法。重点与难点重点与难点 重点:重点:显著性检验的原理,t检验的步骤和方法 难点:难点:显著性检验的原理思考题及

3、作业思考题及作业 1、样本平均数抽样总体的分布与参数和起始总体间有何关系?2、什么是样本标准误?有何作用?它与样本标准差有何区别与联系?3、显著性检验的基本步骤是什么?何谓两类误差?4、什么是总体平均数、总体百分数P的点估计与区间估计?5、习题作业:标准化综合测试题第五章111题。参考书参考书 盖钧镒(主编).2000.试验统计方法。中国农业出版社.6596页 第一节第一节 显著性检验的意义显著性检验的意义 1、举例说明显著性检验的意义 2、阐明显著性检验的目的、对象和要求我们结合一个实际例子来说明。随机抽测10头长白猪和10头大白猪经产母猪的产仔数,资料如下(单位:头):长白 11 11 9

4、 12 10 13 13 8 10 13 大白 8 11 12 10 9 8 8 9 10 7 记10头长白猪经产母猪的产仔数平均数为 ,10头大白猪经产母猪的产仔数平均数为 ,容易算出:=11头,=9.2头,s1=1.76头,s2=1.549头平均数相差为:119.2=1.8(头)是否仅凭这个样本平均数的差异1.8头就简单地给这两个样本所在的总体平均数下结论说:长白猪经产母猪的产仔数平均头数肯定比大白猪经产母猪的产仔数高呢?在未经过差异显著性检验之前,我们只能回答:不一定。事实上,这个资料仅是有关总体的一个样本。长白猪的10个数据,是长白猪经产母猪产仔数总体的一个样本。长白猪的10个数据并不

5、全部大于大白猪的10个数据。如果再随机抽测10头长白猪、10头大白猪经产母猪产仔数,我们又可以得到一个样本资料。两个样本平均数之差也许就不是1.8头而是别的数字了。试验研究的目的不在于了解样本的结果,而在于通过样本来推断总体,给总体作出全面的结论。对于上述资料来说,就是要通过所获得的样本资料对长白猪、大白猪经产1x2x1x2x1x2x21xx 21xx,xxxx 以什么作为检验的对象呢?在统计学中,以样本平均数 作为检验的对象,确切一点说,是以样本平均数的差异 的大小来对样本所在的总体平均数1、2是否相同作出推断的。为什么以样本平均数作为检验对象呢?这是因为:1前面已证明离均差的平方和(x )

6、2最小,表明样本平均数与样本中各个变数相差最小,平均数是资料的代表数。2统计学已证明,样本平均数 是总体平均数的无偏估计值即 的数学期望是。3根据统计学中的中心极限定理,样本平均数 服从或逼近正态分布。正因为样本平均数具有上述特性,我们才以样本平均数作为检验对象,由两个样本平均数差异的大小来推断两个样本所在总体的平均数是否相同。显然不能以样本中的各个变数作为检验对象,由两个样本各个变数间的比较来进行推断。为什么不能仅凭样本平均数差异的大小,直接对样本所在总体的平均数是否相同下结论,而必须经过检验呢?这是因为:在试验研究中,虽然我们尽量排除各种偶然因素的干扰,以突出试验处理结果,但实际的情况常常

7、是:即使是同一个处理的不同重复的观察值还表现不同,说明试验总会受到一些偶然因素的影响而产生试验误差。也就是说,我们所得到的观察值仅是试验的表面结果,它除了包括试验处理的理论值(即试验处理观察值总体的平均数)外,还包括试验误差。设有一个样本,是某一试验处理的n次母猪产仔数总体作出一个全面的结论。设长白猪经产母猪产仔数总体的平均数为1,大白猪经产母猪产仔数总体的平均数为2。均数差异显著性检验的目的,就是给1与2是否相同作出统计推断。ixx重复观察值;其数据为x1,x2,xn,假定该试验处理的理论值为。第i次重复的观察值中所包括的试验误差为i,。则第i次重复观察值 可表示为 xi=+i (i=1,2

8、,n)该样本平均数 为 inninninnxx111111)(表明,样本平均数 并不等于样本所在总体的平均数,它还包含有试验误差 。x因为 所以两个样本平均数的差:可以表示为:,222111xx21xx)()()()(2121221121 xx 这个结果表明,在样本平均数的差 中,包含了两部分:一部是两个总体平均数的差 ,叫做试验的处理效应;一部分是试验误差 ,也就是说样本平均数的差 也受试验误差的干扰,我们把 叫做试验的表面效应。因而,当我们从 中提取结论时,就不能不分析试验的表面效应 主要是由于试验的处理效应或主要是由于试验误差所引起。我们的目的是对1与2。是否相同即试验处理效应是否存在作

9、出推断。然而1,2常常不知道,但由于试验的表面效应是可以计算的,试验误差是可以估计的,于是我们只能从试验的表面效应与试验误差的权衡比较中对试验处理效应 是否存在作出结论。显然,仅凭样本平均数差异即试验的表面效应的大小就下结论是不可靠的。21xx 212121xx 21xx 21xx 212121xx 为了能通过试验了解试验处理(如品种、饲料种类、饲料用量等)的效应,并从试验的表面效应与试验误差的权衡比较中对试验的处理效应作出可靠的结论,对试验设计、试验的实施、观察记载,试验结果的统计分析提出了如下要求:1要求合理地进行试验设计,准确地进行试验和观察记载,尽量降低试验误差,避免系统误差,使试验结

10、果(样本)能够代表总体,并能从试验数据中得出试验处理效应和试验误差的无偏估计。进行合理的试验设计以提高试验精确性的方法将在第十二章中详细介绍。2要求合理地分析试验结果,从而获得有关总体的正确的统计推断。这是统计学中显著性检验所要讨论的问题。这一章我们将以非配对试验时均数差异显著性检验t检验为例,说明显著性检验的基本原理。先介绍所要用到的两个重要分布平均数的抽样分布与t分布。然后介绍显著性检验的基本步骤。第二节第二节 样本平均数的抽样分布与样本平均数的抽样分布与t分布分布1、举例说明样本平均数抽样分布的概念及原始总体与抽样总体参数间的关系2、根据标准差与标准误的区别及t与u分布的异同阐明各自应用

11、条件、场合一、样本平均数的抽样分布一、样本平均数的抽样分布设有一个总体,总体中的各变数记为x,总体平均数为标准差为。现从这个总体随机抽取一个含量为n的样本,该样本的平均数记为 ;再从这一总体随机抽取一个含量为n的样本。第2个样本的平均数记为 ;类似地,我们还可以从这一总体中抽取第3个、第4个,第k个,含量为n的样本,其平均数分别记为 ,和 ,。这些样本平均数不一定等于总体平均数,常常表现不同程度的差异。这种差异是由随机抽样所造成的,统计上称为抽样误差。样本1x2x43xx、kxx平均数 也是一个随机变量,有其概率分布。样本平均数的概率分布叫样本平均数的抽样分布。由样本平均数 构成的总体叫样本平

12、均数抽样总体,其平均数记为 ,标准差记为 ,是样本平均数抽样总体的标准差,简称为标准误,它表示了平均数抽样误差的大小。统计学已证明 总体的两个参数与x总体的两个参数有如下关系:xxxxx =;(n为样本含量)xnx/上述关系我们用一个具体的抽样试验来验证。设有一个总体包含以下4个变数:x1=1,x2=2,x3=3,x4=4;N=4,该总体的平均数,标准差为 =x/N=(1+2+3+4)/4=2.5;2=x2(x)2/N/N=(12+22+32+42)102/4/4 =5/4=1.2525.1注意,这里的总体由4个变数组成,在求方差2时,分母不应是N1。我们从这个总体中每次抽出两个变数组成一个样

13、本。每抽一个数字记下后放回,共可得42=16个样本。16个样本及其平均数如下:123412341,1(1)2,1(1.5)3,1(2)4,1(2.5)1,2(1.5)2,2(2)3,2(2.5)4,2(3)1,3(2)2,3(2.5)3,3(3)4,3(3.5)1,4(2.5)2,4(3)3,4(3.5)4,4(4)16个样本平均数的次数分布表如下:表表51 16个样本平均数的次数分布表个样本平均数的次数分布表 xx2xff f1.01.52.02.53.03.54.01234321161.03.06.010.09.07.04.040.01.04.512.025.027.024.516.011

14、0.0 xx5.216/40/Nx fx2/2/25.18/516/40110/)(21612212Nx fx fNx2/2/2/25.12x这就验证了 的正确性。表明:标准误的大小与总体标准差。成正比,与样本含量、的平方根正反比。样本越大,试验结果所得均数的抽样误差越小,即试验的精确性愈高,样本的代表性就愈强。nxx/,nx/样本平均数抽样总体共包含16个平均数,根据表51可以计算出平均数 ,标准差 :1若随机变量x。服从正态分布N(,2);x1,x2xn是由x总体得来的随机样本,则统计量 =x/n的概率分布也是正态分布,且 ,即 服从正态分布N(,2/n)。2若随机变量x的平均数是,方差是

15、2(不一定是正态分布),x1,x2xn是由此总体得来的随机样本,则统计量 =x/n的概率分布,是当n相当大时,逼近正态分布N(,2/n)。这两个结果保证了样本平均数的抽样分布服从或者逼近正态分布。当xN(,2),则 。由于 ,因此x的分布密度曲线与 的分布密度曲线有共同的对称轴,但前者比后者“高”、“瘦”,见图51。xxnxx/,22xx),(2xxNxnxx/,x图51从正态总体抽取的样本平均数的分布 概率论中的中心极限定理的下述两个结果。指出了x变量与 变量概率分布间的关系:上面所说的 都是相应总体的参数,在实际工作中,常常不知道。因而 。也常常不知道。通常是用样本标准差S估计总体标准差,

16、于是、xnx/nS/xxxSnSS,/x)1(/)()1()(222nnnxxnnxxnSSx也就用 估计 。记 叫样本标准误,它是 的估计值,即平均数抽样误差的估计值。设一个样本包含n个变数:x1,x2,xn,则 公式(51)是常用的计算公式之一。(51)样本标准误和样本标准差是有区别的。样本标准差表示样本中各个变数的变异程度。对于同性质且平均数相同的资料,标准差大表示该资料各变数的变异程度大,标准差小表示该资料各变数的变异程度小;而样本标准误是样本平均数的标准差,它是样本平均数抽样误差的估计值。标准误的大小表示样本平均数精确性的高低。对于同性质且平均数相同的资料,标准误大说明样本平均数的精

17、确性低,标准误小,说明样本平均数的精确性高。二、二、t分布分布前面已说过,若随机变量x服从N(,2)。则样本平均数 服从x),(2xxNnxx/,22),(2xxNx,其中 。对于服从 正态分布的随机变量 ,我们也可按第四章中介绍的方法,将其标准化。令 nxxuxx/xnx/nSSx/xSx/)(xSxt/)(则随机变量u服从标准正态分布N(0,1)。如果总体平均数、总体标准差已知,则对任一样本平均数 均可以计算出u值。于是,我们根据u服从N(0,1)就可进行有关的统计推断了,这就是所谓的u检验。然而总体标准差常不知道,需要用样本标准差来估计,需要用 来估计。于是,我们得到一个新的统计量;令:

18、t也是一个随机变量,它不服从 N(0,1)分布。有关的统计检验就不能借助于 N(0,1)分布进行u检验了。随机变量t的概率分布叫t分布。其分布密度函数为:21212211)(dfdftdfdfdftfdxexpxp01)(我们看到,t分布因样本自由度df=n1的不同而不同,其分布密度曲线是一组曲线。可以证明,随机变量t的平均数为0,且分布密度曲线以y 轴为对称,形状很像标准正态分布密度曲线而稍扁平,顶部略低,尾部略高(见图52)。当n30时。t分布接近标准正态分布;当n时,t分布与标准正态分布合一,即 其中,(P0)为伽马(Gamma)函数。由分布密度函数f(t)t分布当n时的极限分布为标准正

19、态分布。因t分布具有上述特性。因而人们有时把n=30作为大小样本的界限;n30为小样本,n30为大样本。图52 t分布与标准正态分布密度曲线比较图 由于t分布受自由度的制约,所以t值在某个范围内取值的概率也随自由度的不同而不同。t分布的两尾概率见附表3,根据样本自由度df=n1可以查到对应于两尾概率的t值(叫临界t值)。t分布在小样本资料的统计推断中有着广泛而重要的应用。例1某品种成年猪体重总体的平均数=100kg,总体标准差未知,从n=16的一个样本计算得样本标准差S=20kg。试计算由随机抽样所获得的 xx 与相差12.45kg以上的两尾概率。即计算 大于112.45kg与小于87.55k

20、g的概率。要求计算的概率是 p(112.45)=p(10012.45)=p(|100|12.45)。这里因为总体标准差未知,用样本标准差S估计,因而应利用t分布进行计算。xxxxxxxx P(112.45)=P(|100|12.45)=(|100|/5)(12.45/5)=P(|t|2.49)。,15116,5/)100(,)(516/20/dfxtkgnSSxxx查t值表,当 df=15时,与 2.49相对应的两尾概率为 0.025,于是 p(112.45)=P(|t|2.49)=0.025 即,随机抽样所得的样本平均数 与相差12.45kg以上的两尾概率是0.025(见图53)。xx 图5

21、3 与100相差12.45以上的两尾概率 x x1112x1N(1,12)x2N(2,22)x2222222/nxx111/nxx),(2111xxNx),(2222xxNx2111xxx2222xxx1112121/111nnxxx2222222/222nnxxx2212121)(xxxxxx),()(2212121xxxxNxx2221212221212222121212121/nnnnxxxxxxxx2121xxsxxt2ttt),(2tttt假设:1=2,用s合估计后得t值 212221/1/121nnxx则)1()1()()()1()1()1()1()1()1(21222211212

22、121222121nnxxxxnnSSSSnnnsnss合平均数差数的抽样分布平均数差数的抽样分布第三节第三节 显著性检验的基本步骤显著性检验的基本步骤 t分布的特性分布分布的极限分布为正态时当、轴为对称,且密度曲线以、不同而不同分布密度曲线因自由度、tnytt30211、举例说明显著性检验的基本概念及步骤 2、阐明两尾检验、一尾检验的关系复习复习显著性检验一般有三个步骤。我们结合第一节中的例子进行介绍。1首先对试验样本所在的总体作一个假设首先对试验样本所在的总体作一个假设。对于第一节中的例子,先假设长白猪经产母猪产仔数的平均数1,等于大白猪经产母猪产仔数的平均数2,即假设1=2或12=0,也

23、就是假设两个样本平均数的差 (试验的表面效应)属于试验误差。我们所作出的这种假设常常称为无效假设(或称为解消假设)。意味着所比较的两个总体平均数间没有差异,即试验处理效应12为0,无效假设是待检验的假设,该假设有可能被接受,也有可能被否定。我们所作出的无效假设记为H0:1=2。提出无效假设时,相应地还应提出一对应假设(或称为备择假设)。对应假设是无效假设被否定时,准备接受的假设。对于我们所讨论的例子,对应假设应为:长白猪经产母猪产仔数总体的平均数1不等于大白猪经产母猪产仔数的平均数2的。记为HA:12。通过检验,若否定无效假设,我们就接受对应假设。21xx 2在上述无效假设成立的条件下,研究试

24、验所得的统计数的抽样分布在上述无效假设成立的条件下,研究试验所得的统计数的抽样分布。这里,我们研究无效假设H0:1=2成立的条件下,两个样本平均数的差 的抽样分布,经过研究,我们能得到一个df=(n11)+(n21)(n1为第一个样本含量,n2为第二个样本含量)的t分布:21xx 2121xxSxxt,df=(n11)+(n21)。其中 叫做均数差异标准误。212122221111)1()1()()(21nnnnxxxxSxx于是,我们可以根据两个样本的数据,计算出 与 ,进而计算出t值。对于所讨论的例子,经计算 21xx 21xxS742.08.12121xxSxx426.22121xxSx

25、xt下面我们来估计|t|2.426的两尾概率,即估计P(|t|2.426)是多少。查t值表(附表 3):在df=(nl1)+(n21)=(101)+(101)=18时,两尾概率为0.05的临界t值为2.101,即 P(|t|2.101)=P(t 2.101)+P(t2.101)=0.05;今计算得的t值为2.426,即 tt0.05(18)说明|t|2.426的概率小于0.05,即.P0.05见图54。也就是说,试验的表面效应 属于试验误差的概率小于0.05。8.121 xx图54|t|2.426的两尾概率 3根据小概率事件实际不可能性原理否定或接受无效假设根据小概率事件实际不可能性原理否定或

26、接受无效假设。当事件的概率很小时,我们可以认为在一次试验中,该事件几乎不可能发生。例如,当试验的表面效应属于试验误差的概率小于0.05时,我们可以说,在一次试验中,这个试验的表面效应不可能属于试验误差所引起,这主要是由于存在试验处理效应的缘因。因而否定原先所作出的无效假设H0:1=2,即否定试验表面效应是随机误差的假设,此时就承认对应假设HA:12,即承认试验处理效应是“显著的”。当然,如果所估计的两尾概率大于0.05,说明试验表面效应是试验误差的可能性较大,即原先所作出的无效假设H0:1=2成立的可能性较大,不能否定H0:1=2,从而不能接受HA:12,我们就说试验处理效应是“不显著的”。上

27、例中,试验表面效应为试验误差的概率小于0.05,所以否定无效假设H0:1=2,接受对应假设HA:12。就是说,长白猪经产母猪产仔数总体的平均数与大白猪经产母猪产仔数总体的平均数是不相同的。现有的两样本均数间的差异1.8不是误差引起的效应。到此为止,显著性检验的三个步骤才算完成。对于我们所举的例子,还有以下几点说明:1我们所举的例子属于“非配对试验”,对于这种“非配对试验”结果,有相应的统计分析方法。前面介绍的就是“非配对试验时均数差异显著性检验t检验法”。有关“非配对试验”、“配对试验”,后面还要专门介绍。2进行显著性检验时,无效假设和对应假设的选用,决定了采用两尾概率或是一尾概率进行检验。若

28、无效假设为H0:1=2,对应假设为HA:12。此时,对应假设有两种可能性。或12,或12,相应的t检验用t分布的两尾概率,这类检验称为两尾检验。一般,若比较两种试验处理。事先不知道谁优谁劣,分析的目的在于确定两种试验处理有无差别,就用两尾检验。若无效假设为H0:12,对应假设为HA:12(或无效假设为H0:12,对应假设为HA:12),这时对应假设仅有一种可能性,相应的t检验用t分布的一尾概率,这类检验称为一尾检验。一般,如果已知甲处理不会比乙处理差,分析的目的在于确定甲处理是否比乙处理好,则用一尾检验。此时无效假设可为H0:甲乙(或H0:乙甲),对立假设为HA:甲乙(或HA:乙甲)。附表中的

29、t值表给出的是两尾概率,用于两尾检验。今后若不作特别申明,所进行的t检验一般指两尾检验。若需要进行一尾t检验,也可用两尾概率的t值表查一尾 第四节第四节 显著平准与两类误差显著平准与两类误差 检验的临界t值,此时,一尾检验的t0.05=两尾检验的t0.10;一尾检验的t0.01=两尾检验的t0.02,余类推。3统计检验中的“显著性”在这里是否定无效假设H0:1=2,接受对应假设HA:12,这只意味着试验处理效应确实存在,但它并不表示这种效应在实际应用上的重要程度。统计分析结论的应用,还应与经济效益等结合起来综合考虑。显著平准显著平准:用来进行显著性检验的小概率叫显著平准,记为。统计上常用 显著

30、平准”值右上方标上“,在显著平准:”值右上方标上“,在显著平准:*01.0%1*05.0%5tt 因为显著性检验否定或接受无效假设的依据是“小概率事件实际不可能性原理”,所以我们下的结论是没有百分之百把握的。譬如经t检验“差异显著”,我们的结论有95的把握,同时要冒5下错结论的风险;经t检验“差异极显著”,我们的结论有99的把握,同时要冒1下错结论的风险;而经t检验“差异不显著”,在统计上是指“没有理由否定无效假设H0:1=2,也没有理由接受对应假设HA:12,同样要冒下错结论的风险。显著性检验是一种“概率性质的反证法”。事实上,显著性检验有可能出现两种类型的误差:两类误差 实差异,可能性记为

31、把真实差异错判为非真差型实差异,可能性记为把非真实差异错判为真差:误:型误 犯型错误的可能性随|12|的减小或试验误差的增大而增大,因|12|越小或试验误差越大,越容易将试验的表面效应错判为试验误差(图55)。图55 关于型误差与型误差的图解 我们可以选数值小的显著平准以降低犯型误差的可能性,但与此同时也增大了犯型误差的可能性。所以,显著性检验的显著平准的选用,从统计上应考虑到犯两类误差的可能性。在实际应用时,还需考虑进行试验的难易,试验结果的重要程度。若一个试验耗费大,可靠性要求高。不容许反复,那么,显著平准应该取得小些;又当一个试验结论的使用事关重大,值也应该取得小些。对于生物方面的试验,

32、由于试验条件、试验单位(田间试验的小区,动物试验的个体等)不可能控制完全一致,试验误差较大。为了减少犯型误差的可能性,也有选显著平准为0.10、0.20甚至0.25的(注意,在选用这些显著平准时,须予以注明)。在选取数值小的显著平准时,为了减少犯型误差的可能性,可适当增加试验处理的重复次数(即样本含量),以降低试验误差;提高试验的精确性。我们通过“非配对试验均数差异显著性检验t检验”的例子介绍了显著性检验的基本原理和步骤。统计学中的显著性检验,除t检验外,还有2检验,方差 分析中的F检验与多重比较LSD法、LSR法等,这将在以后各章中逐一介绍。以后在介绍这些统计检验方法时,不再如这里这样详细介

33、绍其基本原理。只着重于基本步骤和方法的介绍。第五节第五节 样本均数与总体均数差异显著性检验样本均数与总体均数差异显著性检验t检验检验复习复习:显著性检验AdfAdfdfdfxxxAHHpttHHptttHpttndfSxtnndfSxxttHH,接受,差异极显著,否定,接受,差异显著,否定,差异不显著,接受,统计推断:、)(或)()()(值:计算、)(或:)(或:提出假设:、0)(01.00)(01.0)(05.00)(05.00212121021021001.0|05.0|05.0|31/(11/21步骤举例说明单个样本均数与总体均数t检验的方法及其应用 在实际工作中,有时我们需要检验一个样

34、本是否来自某一个总体。例如,猪的怀孕期一般是114天。但我们实际调查若干头母猪,它们的怀孕期不一定恰好都等于114天。这时,我们可以检验这若干头母猪的平均怀孕期与114天差异是否显著。若检验结果,差异显著,譬如显著提前,则应进一步寻找引起早产的原因,以采取相应措施。又如,某品种成年母水牛的体高,根据历年的观察记载,平均体高是131cm。现随机抽测了若干头该品种成年母水牛的体高。也可将这若干头该水牛体高的平均数与131cm进行比较,检验差异是否显著。若检验结果差异不x显著,说明该品种成年母水牛的体高未有实质性改变,随机抽测的成年母水牛体高样本,可以认为是来自原成年母水牛体高总体。这一类问题就是样

35、本均数与总体均数差异显著性检验问题。这类问题的一般提法是:设有一个样本:xl,x2,xn。检验该样本均数 与已知的总体均数0问差异是否显著。这类问题的解决,应采用下述t 检验法:无效假设为H0:=0 对应假设为HA:0 其中,为样本所在总体平均数,0为已知的总体平均数。根据上述无效假设与对应假设应进行两尾检验,t的计算公式为:1,0ndfSxtx(52)下面结合实例说明进行样本均数与总体均数差异显著性检验的实际步骤。例2随机抽测某品种7头成年母水牛体高,测得的数据为137、133、136、129、133、130、131cm。根据历年观察记载,该品种成年母水牛体高总体平均数为131cm。试检验所

36、得的样本平均数与总体平均数差异是否显著。在这个问题中,可计算得样本平均数 =132.7cm,已知的总体平均数0=131 cm,样本含量n7。实际检验时。可将提出无效假设和对应假设这一步略去,而按如下步骤进行。xnSSx/x其中,为样本均数。0为已知的总体均数,为样本标准误,n为样本含量。表表52 样本标准误样本标准误 计算表计算表 xS体 高 数 据总 和平 均xx2 137 133 136 129 133 130 13118769 17689 18496 16641 17689 16900 17161 929123345132.7 2、计算t值 13.1424286.53)17(77/)92

37、9(345,123)1(/)(222nnnxxSx50.113.11317.1320 xSxt 3、由df=n1查临界t值:t0.05,t0.01,将计算所得的 t值的绝对值|t|与 t0.05,t0.01比较,作出统计推断。因为df=n1=7l=6,查t值表,得t0.05(6)=2.447,而|t|=1.50t0.05(6)=2.447,即P0.05,表明样本平均数 =132.7cm所在总体平均数与已知总体平均数0=131 cm差异不显著,或简单叙述为:样本均数与已知总体均数差异不显著,可以认为该样本是来自成年母水牛体高平均数为131cm的总体,即该品种成年母水牛体高未发生实质性改变。x 1

38、、计算样本标准误xS第六节第六节 两样本均数差异显著性检验两样本均数差异显著性检验t检验检验 在实际实验中,经常要进行两个处理平均数间的比较。进行两个处理的比较试验时。有两种试验设计方式;一种是两个处理的试验单位(如畜牧试验的试验动物)是配对的,所得的两个样本观察值间也是配对的。另一种是两个处理的试验单位是相互独立的,非配对的,所得的两个样本观察值也是相互独立,非配对的。由于试验设计的方式不同,对试验结果进行统计分析的方法也不同。现分别介绍如下。一、非配对试验两个样本均数差异显著性检验一、非配对试验两个样本均数差异显著性检验t 检验检验所谓两个试验处理非配对试验设计,是指将试验单位完全随机地分

39、两组,各实施一试验处理。这种设计方式也叫两个试验处理的完全随机设计。采用这种设计方式,两组的试验单位相互独立,因而所得的两个样本观察值也相互独立。非配对试验结果的符号表示为:ix1x2x处 理观 察 值xij样本含量ni样本平均数总体平均数i12x11 x12x1n1x21 x22x2n2n1n2=x1/n1=x2/n212现在的任务是通过()推断两样本所在的总体平均数1与2,是相同或简单地叙述为检验两个样本均数差异的显著性。采用t检验法如下。21xx 无效假设为 H0:1=2 对应假设为HA:12其中,1为第一个样本所在总体的平均数;2为第二个样本所在总体的平均数。根据上述无效假设与对应假设

40、,应进行两尾t检验,t的计算公式为2121xxSxxt,df=(n11)+(n21)(53)其中 当nln2n时。公式(5一4)变为21212222212121212122221111)1()1()()(11)1()1()()(21nnnnnxxnxxnnnnxxxxSxx(54)22222122222121212121)1()()(xxxxSSnSnSnnnxxnxxS(55)叫均数差异标准误。为第一个样本均数,为第二个样本均数;n1为第一个样本含量,n2为第二个样本含量;xl为第一个样本各变数,x2为第二个样本各变数;S1为第一个样本标准差,S2为第二个样本标准差;为第一个样本标准误。为第

41、二个样本标准误。21xxS1x2x1xS2xS注意:当n1n2时,只能用公式(54)计算 ;当n1=n2时,用公式(54)、(55)均可,但用公式(55)计算较简便。但是不等重复数的试验(即n1n2的试验)一般不值得提倡,这是因为,一方面,对不等重复数试验结果进行统计分析时计算较麻烦;另一方面,对不等重复数试验结果分析的精确性不如等重复数的高。下面结合实例说明进行两个样本均数差异显著性检验的实际步骤。例4随机抽测12头长白后备猪与11头蓝塘后备猪90kg时背膘厚度的资料如下(单位:cm)若该资料服从正态分布,且方差相等。试检验两个品种后备猪背膘厚度差异是否显著?21xxS1、提出无效假设和备择

42、假设 H0:1=2,HA:122、计算t值 此例n1=12,n2=1121xxS长 白1.20 1.32 1.10 1.28 1.35 1.08 1.18 1.25 1.30 1.12 1.19 1.05蓝 塘2.00 1.85 1.60 1.78 1.96 1.88 1.80 1.70 1.68 1.92 1.80 代入(54)式计算均数差异标准误 4376.17,42.14,202.12111xxx4781.36,99.19,817.12222xxx经计算得:,。*226.130465.0817.1202.12121xxSxxt3、查临界t值,将计算所得的|t|与其比较,作出统计推断因为d

43、f=(121)(111)=21,查t值表,得t0.01(21)=2.831,|t|2.831,P0.01,否定H0:1=2,接受HA:12。表明长白后备猪背膘厚度极显著地低于蓝塘后备猪。例5对粤黄鸡进行饲养对比试验,时间60d,增重结果如表53,试验检两种饲料对鸡的增重效果有无显著差异?表表53 粤黄鸡饲养试验增重(粤黄鸡饲养试验增重(g)0465.000216.0111121)111()112(11/99.194781.3612/42.144376.1711)1()1()()(222121222221212121nnnnnxxnxxSxxA720 710 735 680 690 705 70

44、0 705B680 695 700 715 708 685 698 688此例n1=n2=8,经计算得:125.138,125.696,839.288,625.70222211SxSx二、配对试验两个样本均数差异显著性检验二、配对试验两个样本均数差异显著性检验t检验检验非配对设计要求试验单位尽可能一致,如果试验单位变异较大,譬如试验动物的年龄、体重相差较大,若仍采用上述设计方法,有可能使试验处理受试验单位系统误差的影响,而降低试验的准确性和精确性。为了排除试验单位不一致对试验结果的影响,准确地估计试验处理效应,降低试验误差,提高试验的准确性和精确性,应采用配对试验设计。所谓配对试验设计,是指先

45、将试验单位按配对的要求两两配对,然后将每一个对子内的两个试验单位独立随机地分配到两个处理组中。配对的要求是,配成对子的两个试验单位的初始条件应尽量一致;不同试验对子间,试验单位的初始条件允许存在差异。每一个对子就是试验的一次重复。动物试验时,将同窝、同性别、同体重的二头动物配成对子,叫同源配对;也可以把同一试验单位的接受试验处理前后的两次观察值,如白鼠照射x射线前后的体重作为是配对1、提出无效假设和备择假设 H0:1=2,HA:122、计算t值 300.1306.7125.696625.705306.78125.138839.2882121222121xxxxSxxtnSSS 3、查临界t值,

46、作出统计推断 当df=(81)(81)=14,查t值表,得t0.05(14)=2.145,|t|2.145,P0.05,故不能否定H0:1=2,表明两种饲料对粤黄鸡的增重效果差异不显著。的,叫自身配对。自身配对就其性质来说也属于同源配对。在实际工作中,如果达不到同源配对的要求,也可将具有相近条件的试验单位配成对子,如动物可按同种属,同性别、年龄与体重相近的进行配对。显然,判断是“配对试验”或“非配对试验”,不在于两组的试验单位数,即两样本的观察值数目是否相等,而在于采用什么样的方式将试验单位进行分组,即采用什么样的设计方式。采用“配对试验设计”方式,由于两组的试验单位两两配对,因而试验结果所得

47、的两个样本观察值间也是两两配对的。配对试验结果的符号表示为:nxx/11nxx/2221/xxndd处 理观 察 值 xij样本含量样本平均数总体平均数1x11x12x1nn12x21x22x2nn2差d=x1-x2d1d2dnn d我们的任务是通过 推断d=12是否为0,即1与2是否相同。采用的t检验法如下:无效假设为H0:d=12=0对应假设为HA:d0,即120 21xxd其中,1为第一个样本所在总体平均数,2为第二个样本所在总体平均数。d为第一个样本所在总体与第二个样本所在总体配对变数的差数d=x1x2,(56)所构成的差数总体的平均数,且d=12。根据所提出的无效假设与对应假设,应进

48、行两尾t检验。t的计算公式为:(57)1,21ndfSxxSdtdddS)1(/)()1()(222nnnddnnddnSSdd其中,叫差异标准误,其计算公式是d为第一、第二两个样本各对数据之差,即d=x1x2。为第一、第二两个样本各对数据之差的平均数,它等于两样本平均数的差,即 。为第一、第二两个样本各对数据之差的标准差。n为配对的对子数,即试验的重复数。下面仍结合实例说明非配对试验两个样本均数差异显著性检验的实际步骤。例6在比较国产与进口的膘厚测定仪时。对14头活体肥猪进行了测定,资料如下;d21xxddS(单位:mm)进 口32 40 27 27 32 35 28 43 40 41 41

49、 35 49 34国 产43 44 30 34 30 31 26 26 42 40 42 43 37 43试检验两种仪器测定的结果有无显著差异?因为同一头猪用两种仪器测量可以认为是配对的(属自身配对),因而采用配对试验均数差异显著性检验t检验法进行检验(实际检验时,可将提出无效假设与对应假设这一步略去,而按如下步骤进行)。1、计算差异标准误dSdS2x1xd编 号进 口国 产d=x1x2d2123456789101112131432402737323528434041413549344344303430312626424042433743 11 4 3 3 2 4 2 17 2 1 1 8 1

50、2 9 121 16 9 9 4 16 4 289 4 1 1 64 144 81总 和514511 3 763平 均 =36.71 =36.5 =0.21 表表54 差异标准误差异标准误 计算表计算表 2、计算t值 由于 的舍入误差比 小,一般用 而不用 计算t值。0466.218776.4)114(1414/)3(763)1(/)(222nnnddSdd21xx dSd/dSxx/)(211026.00466.221.0dSdt 3、由df=n1查临界t值 将计算所得的 t值的绝对值|t|与t0.05比较,作出统计推断。因为df=nl=141=13,查t值表得:t0.05(13)=2.16

51、0,而|t|=0.1026 t0.05(13)=2.160,即P0.05,表明这两种仪器测定的结果是一样的。第七节第七节 百分数资料差异显著性检验百分数资料差异显著性检验 通过实例重点阐明二项资料单个样本和两个样本百分数差异显著性检验在第四章介绍二项分布时,曾指出只具有二个属性类别的质量性状得来的次数资料或百分数资料服从二项分布。二项分布在样本含量n(即试验次数或观察次数)较大、P不过小、且np,nq均大于 5时,接近正态分布。所以对于服从二项分布的百分数资料或成数资料,当n充分大时,可以近似地用u检验法,即自由度为无穷大时(df=)的t检验法,进行差异显著性检验。适用于近似地采用u检验,即d

52、f=时的 t检验的二项分布百分数资料的样本含量n(试验次数或观察次数)见表55。表表55 用于近似地采用用于近似地采用u检验所需要的二项分布百分数资料的样本含量检验所需要的二项分布百分数资料的样本含量np(样本百分数)np(较小百分数的次数)n(样本含量)0.50.40.30.20.10.051520244060703050802006001,400一、样本百分数与总体百分数差异显著性检验一、样本百分数与总体百分数差异显著性检验在科学研究工作中,有时需要检验一个样本百分数与已知的二项总体百分数差异是否显著,即检验该样本是否来自某二项总体。这一类问题就是样本百分数与总体百分数差异显著性检验的问题

53、。其一般提法是:设有一样本百分数P=x/n,n为样本含量(观察次数或试验次数),x为观察n次或试验n次某事件发生的次数。记P为样本百分数所在二项总体百分数;P0为已知的二项总体百分数。我们任务是通过PP0推断P与P0是否相同。此时,无效假设为Ho:P=Po 对应假设为HA:PP0显然应进行两尾检验。因u检验也就是df=时的t检验,所以这里可计算t值进行t检验,t值的计算公式为 dfSpptp,0(512)其中Sp叫样本百分数标准误,计算公式为 nppnqpSp)1(0000(513)由于t0.05()=1.96,t0.01()=2.58,所以进行df=时的t检验,只须将计算所得的t值的绝对值与

54、1.96,2.58比较,即可作出统计推断。例5调查某猪场在一个产仔季节共产仔猪76头,其中36头母,40头公。根据遗传学的理论,动物性别比例应是1:1,即母猪的理论百分数与公猪的理论百分数应为0.5。问所调查的结果是否符合1:1,性别比例的规律。在这个问题中,可计算得母猪的百分数p=36/76(或公猪的百分数p=40/76)。要回答所调查结果是否符合1:1性别比例的规律,相当于检验母猪的样本百分数p=36/76与母猪的理论百分数0.5差异是否显著(或检验公猪的样本百分数p=40/76与公猪的理论百分数0.5差异是否显著)。此时P0=0.5。057.0765.05.0)1(00nppSp456.

55、0057.05.0)76/36(0 pSppt|t|=0.456t0.05()1.96,P0.05表明样本百分数36/76所在的二项总体百分数,与已知的二项总体百分数0.5差异不显著。可以认为该样本百分数来自母猪百分数为0.5的二项总体,即调查结果符合1:1性别比例的规律。而因为二、两个样本百分数差异显著性检验二、两个样本百分数差异显著性检验这类问题的一般提法是:设有二个样本百分数:p1=x1/n1,p2=x2/n2,其中n1为第一个样本的含量(试验次数或观察次数),x1为试验n1次或观察n1某一事件出现的次数;n2为第二个样本的含量(试验次数或观察次数),x2为试验n2次或观察n2次某一事件

56、出现的次数。设p1为第一个样本百分数p1所在二项总体百分数,(514)dfSpptpp,2121p2为第二个样本百分数p2所在二项总体百分数。现在的任务是通过p1p2推断p1与p2是否相同。此时,无效假设为H0:p1=p2 对应假设为HA:p1p2显然应进行两尾检验。t值的计算公式为:其中 叫样本百分数差异标准误,计算公式为:21ppS212121212111121nnnnxxnnxxSpp(515)将计算所得的t值的绝对值|t|与1.96,2.58比较,即可。例6某养猪场第一年养猪225头,死亡23头;第二年养猪368头,死亡28头。试检验第一年与第二年猪的死亡率是否有显著差异。这是一个由只

57、有二种属性类(生、死)的质量性状得来的次数,进而得到的百分数死亡率的资料。n1=225,x1=23;n2=268,x2=28。p1为第一年猪的死亡率,p2为第二年猪的死亡率,经过计算可得:0761.036828,1022.022523222111nxpnxp|t|=1.0966t0.05()1.96,P0.05 表明第一年与第二年猪的死亡率差异不显著,或者说,第二年猪的死亡率与第一年相比,看不出来有明显下降。0238.0002.09140.00860.036812251368225282313682252823111212121212121nnnnxxnnxxSpp0966.10238.007

58、61.01022.02121 ppSppt因为而第八节第八节 平均数的置信区间平均数的置信区间1、重点阐述参数区间估计的基本概念 2、实例说明区间估计的基本方法 试验的目的是希望获得有关试验处理总体的认识。从一个正态总体抽取一样本,可计算得样本平均数 ;从一个二项总体抽取一样本,可计算得样本百分数p。尽管样本平均数是总体平均数的估计值;样本百分数 是总体百分数P的估计值。这种估计方法统计上叫点估计。但它没有考虑试验误差的影响,也未指出这种估计的可靠程度。对总体平均数和总体百分数P更合理的估计是在一定概率保证下,给出总体平均数和总体百分数P的可能范围,这种估计方法统计上叫区间估计,所给出的可能范

59、围叫置信区间。下面分别介绍正态总体平均数与二项总体百分数P的置信区间。xx一、正态总体平均数一、正态总体平均数的置信区间的置信区间 设有一来自某正态总体的样本,包含n个变数:xl,x2,xn,样本平均数为 =x/n,样本标准误为 。现对总体平均数作出区间估计。根据t分布:xnSSx/1ndfSxtx当两尾概率=0.05时,有95的 t值在t0.05(df)之间,即t值在t0.05(df)到t0.05(df)范围内取值的可能性为95。Pt0.05(df)tt0.05(df)=0.95,也就是 Pt0.05(df)t0.05(df)=0.95。xSxxSx对于 t0.05(df)t0.05(df)

60、各项同乘以 得 t0.05(df)t0.05(df)xSxSxxS然后将各项同减去 t0.05(df)t0.05(df)xxxSxxS最后将各项同乘以(1)+t0.05(df)t0.05(df)所以 P t0.05(df)+t0.05(df)=0.95 xxSxxSxxxSxS我们把 t0.05(df)+t0.05(df)叫做总体平均数的95%置信区间。其中,xxSxxSxSxxSxxSxS类似地我们可以得到:P(t0.01(df)+t0.01(df))=0.99xxSxxS我们把 t0.01(df)+t0.01(df)叫做总体平均数的99置信区间。其中,t0.01(df)、t0.01(df)

61、、+t0.01(df)、t0.01(df)分别叫做置信度为99xxSxxSxSxxSxxSxS时的置信半径、置信下限、置信上限与置信距。置信上、下限之差t0.05(df)叫置信距。95叫置信度。t0.05(df)叫做置信半径;t0.05(df)叫做置信下限;+t0.05(df)叫做置信上限;例7某品种猪10头仔猪的初生重为1.5、1.2、1.3、1.4、1.8、0.9、1.0、1.1、1.6、1.2(kg),求该品种猪仔猪初生重总体平均数的置信区间。经计算得 =1.2,=0.08,由df=n1=101=9,查t值表得t0.05(9)=2.262,t0.01(9)=3.250,因此95置信半径为

62、t0.05(df)=2.2620.08=0.1895置信下限为 t0.05(df)=1.20.18=1.0295置信上限为 +t0.05(df)=1.2+0.18=1.38所以该品种种仔猪初生重总体平均数的95置信区间为 xxSxSxxSxxS 1.02(kg)1.38(kg)。又因为99置信半径为t0.01(df)=3.250.08=0.2699置信下限为 t0.01(df)=1.20.26=0.9499置信上限为 +t0.01(df)=1.2+0.26=1.46所以该品种仔猪初生重总体平均数的99置信区间为 0.94(kg)1.46(kg)xSxxxS二、二项总体百分数二、二项总体百分数P

63、的置信区间的置信区间当样本含量(试验次数或观察次数)n较大、P不太大、且np、nq均大于5时,二项分布接近正态分布。可利用正态分布近似地求出二项总体百分数P的置信区间。设有一来自某二项总体的样本,样本百分数为p=x/n,其中n为样本含量(试验数或观察次数),x为n次试验或n次观察某事件发生的次数。现对该二项总体百分数P作出区间估计。对于样本百分数p,可推导出如下 t分布 dfSPptp,其中Sp叫样本百分数标准误,计算公式为 nPPSp)1(注意公式(516)不同于公式(513)。公式(513)是在H0:P=P0成立的前提下推导出来的。(516)xS于是可得 P(pt0.05()SpPp+t0

64、.05()Sp)=0.95 我们把p1.96SpPp+1.96Sp叫做二项总体百分数P的95置信区间,例8抽样调查地区耕牛900头,其中良种耕牛720头,对该地区良种耕牛的比率作出区间估计。设该地区良种耕牛的比率为P。因为 p=x/n=720/900=0.80 0133.0900)8.01(8.0)1(nPPSp下限、置信上限和置信距。2.58Sp、p+2.58Sp、22.58Sp,分别叫做置信度为99的置信半径、置信Pp+2.58Sp叫做二项总体百分数P的99置信区间,其中2.58Sp、p的置信半径、置信下限、置信上限和置信距。类似地,我们把p2.58Sp其中1.96Sp、p1.96Sp、p

65、+1.96Sp、21.96Sp,分别叫做置信度为95且t0.05()=1.96,t0.01()=2.58P(pt0.01()SpPp+t0.01()Sp)=0.99于是95置信半径为1.96 Sp=1.960.0133=0.026195置信下限为p1.96Sp=0.80.0261=0.773995置信上限为p+1.96Sp=0.8+0.0261=0.8261所以该地区良种耕牛比率P的95置信区间为 0.7739P0.8261又因为99置信半径为2.585 Sp=2.580.0133=0.034399置信下限为p2.58Sp=0.80.0343=0.765799置信上限为p+2.58Sp=0.8+0.0261=0.8343所以该地区良种耕牛比率P的99置信区间为 0.7657P0.8343

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!