2022西格玛统计学
《2022西格玛统计学》由会员分享,可在线阅读,更多相关《2022西格玛统计学(296页珍藏版)》请在装配图网上搜索。
1、1 1武汉工程职业技术学院统计基础统计基础2 2武汉工程职业技术学院一、基本概念二、描述性统计三、数据的图示方法四、统计量与抽样分布五、数据的收集与整理六、参数估计主要内容主要内容3 3武汉工程职业技术学院一、基本概念一、基本概念(一)基本概念1、统计学(statistics):收集、处理、分析、解释数据并从中得出结论的科学。2、描述统计(descriptive statistics):研究数据收集、处理和描述的统计学分支。3、推断统计(inferential statistics):研究如何用样本数据来推断总体特征的统计学分支。4、总体(population):包含所研究的全部个体(数据)的
2、集合,称为总体。根据所包含的单位数目是否可数可以分为有限总体和无限总体,区分有限总体和无限总体的目的是判别每次抽样是否独立4 4武汉工程职业技术学院5、样本(sample):从总体中抽取的一部分元素的集合称为样本。6、样本量(sample size):构成样本的元素的数目称为样本量或样本容量。7、参数(parameter):用来描述总体特征的概括性数字度量称为参数。参数包括均值、标准差、比例等。一般用希腊字母表示。8、统计量(statistics):用来描述样本特征的概括性数字度量称为统计量。通常用英文字母表示。一、基本概念一、基本概念5 5武汉工程职业技术学院nxxnii1未分组数据二、描述
3、性统计二、描述性统计为偶数,为奇数nXXn,XXnnn12221216 6武汉工程职业技术学院二、描述性统计二、描述性统计例题:13.计算下列数据的中位值:23,33,35,45,55,56,66,78 a.50 b.45 c.55 d.40(4)众数、中位数、均值三者之间的关系 众数是一组数据分布的峰值,不受极端值的影响,但缺点是有可能不唯一,适合于分类数据的集中趋势测度值;中位数是一组数据中间位置上的代表值,在数据分布偏斜程度较大时适合作为数值型数据集中趋势的测度值;均值利用了数据的全部信息,当数据对称或接近对称时,应选择均值作为集中趋势的代表值。7 7武汉工程职业技术学院(5)众数、中位
4、数、均值三者之间的关系二、描述性统计二、描述性统计3210-1-2-30.40.30.20.10.0X X对称分布:均值=中位数=众数201510500.160.140.120.100.080.060.040.020.00X X密密度度分分布布图图卡方,自由度=5右偏分布:均值中位数众数5.02.50.0-2.5-5.0-7.5-10.0-12.50.200.150.100.050.00X X密密度度分分布布图图最小极值,位置=0,尺度=2左偏分布:均值中位数5且np(1-p)5),且p值适中(0.1p580,则认为钢筋抗拉强度的平均值有提高。6565武汉工程职业技术学院6.2 假设检验假设检
5、验统计分析方法运用过程中蕴含的两条基本原理:(1)带有概率性质的反证法原理为此可以建立两个命题,在假设检验中称为假设:原假设(零假设):关于样本所属总体(指参数值)与假设总体(指参数值)之间无差异的假设,记为H0;备择假设(或对立假设):和原假设相反的假设。指的是关于当前样本所属的总体(指参数值)与假设总体(指参数值)有差异的假设,是根据样本信息期待证实的假设,是否定了原假设后应当采取的假设,记为H1。6666武汉工程职业技术学院6.2 假设检验假设检验统计分析方法运用过程中蕴含的两条基本原理:(1)带有概率性质的反证法原理H0和H1地位是不对等的,不能随意交换。因而,在一般情况下,H0要取那
6、个在实践中应该受到保护,有足够证据时才能否定的论断或“不证自明”的论断作为原假设。在对参数进行检验时,我们将把相等的、无差别的、等号成立相等的、无差别的、等号成立的结论作为原假设,记为H0;将待判定、待证明的、不相等、有差别待判定、待证明的、不相等、有差别的结论作为备择假设,设为H1。对于参数检验的问题,原假设一定是“等于”某值,备择假设中永远只可能是“大于”、“小于”或“不等于”这三种情况。6767武汉工程职业技术学院6.2 假设检验假设检验(2)小概率事件原理带有概率性质的反证法原理中,所谓的明显不合理情况指的就是竟然出现了小概率事件。按照常识,在假设H0成立的条件下,与大概率事件相比,小
7、概率事件在一次试验中几乎不会发生,如果它发生了,说明最初的假设“H0是成立的”并不正确,因此应该拒绝H0。但与此同时,应该注意的是,在处理假设检验问题时,未考虑特殊情况,虽说小概率事件在一次试验中几乎不会发生,但不等于不会发生,它仍然有发生的可能性。所以,根据小概率事件发生而做出的拒绝H0的判断有犯错误的可能。6868武汉工程职业技术学院假设检验是先对总体参数提出一个假设值,然后利用样本信息推断这一假设是否成立。095%nn2/12/1ZXZX,095%nn2/12/1ZXZX,拒绝原假设拒绝原假设不拒绝原假不拒绝原假设设小概率事件原理:小概率事件在一次试验中是几乎不会发生的。假设检验是利用小
8、概率事件原理,进行反向推断(反证法)6.2 假设检验假设检验6969武汉工程职业技术学院联系假设检验与区间估计都属于推断统计的内容,都是根据样本信息推断总体信息。假设检验与区间估计的联系与区别:假设检验与区间估计的联系与区别:区别区间估计是利用大概率原理推断出总体参数的范围,输出是数值(一个区间)。假设检验是以小概率原理为基础,对总体的状况所做出的假设进行判断,输出的是结论(拒绝或不能拒绝)。6.2 假设检验假设检验7070武汉工程职业技术学院6.2.2 假设的步骤(1)建立原假设和备择假设;(2)给出犯两类错误的概率、;(3)从实际出发确定什么样的差别是有意义的,即确定。(4)根据检验参数的
9、类型和已知条件,选择检验统计量。(5)计算样本量。(6)数据采集。(7)计算检验统计量。(8)使用以下三种方法之一做出是否拒绝原假设的判断。置信区间法:根据样本统计量计算总体参数的置信区间,原假设的参数值未落入置信区间,拒绝原假设,否则不能拒绝原假设。临界值法:将检验统计量的值与拒绝域的临界值相比较,落在拒绝域中拒绝原假设,否则不能拒绝原假设。p值法:由检验统计量计算p值,p值小于拒绝原假设,否则不能拒绝原假设。6.2 假设检验假设检验7171武汉工程职业技术学院(1)建立假设)建立假设一对假设:原假设(H0)和备择假设(H1)H0与H1地位是不对等的 假设检验使用了反证法原理先假定H0是正确
10、的,如果样本观测值出现了与应有的结果明显矛盾的情况,则说明“H0正确”这个假设是错误的,于是拒绝H0,这是强结论;如果没有出现矛盾的情况,我们不能说接受H0,只能说没有足够的证据拒绝H0,这是弱结论。一般情况下,我们把相等的、无差别的的结论作为原假设,所以,等于一定包含在原假设中;备择假设只可能是“大于”、“小于”、“不等于”三种情况。6.2 假设检验假设检验7272武汉工程职业技术学院假设检验的基本形式(以均值检验为例)假设假设双侧检验双侧检验单侧检验单侧检验左侧检验左侧检验右侧检验右侧检验原假设原假设H0:=0H0:0H0:0备择假设备择假设H1:0H1:06.2 假设检验假设检验7373
11、武汉工程职业技术学院6.2 假设检验假设检验原假设与备择假设建立示例:例1:原来的热轧带肋钢筋生产线生产的钢筋平均抗拉强度为580MPa,标准差为9MPa。经过调整参数后,希望钢筋抗拉强度能有所提高。项目团队实施改进后抽取了25根钢筋,测得钢筋平均抗拉强度为605 MPa。问:能否断言钢筋平均抗拉强度确有提高?试建立原假设和备择假设。58058010:H:H7474武汉工程职业技术学院6.2 假设检验假设检验例2:某厂规定产品必须经过检验合格后才能出厂,其不合格率p0不得超过5%。现从一批产品中随机抽取200个进行检验,发现16个不合格品,问该产批产品能否出厂?试建立原假设和备择假设。0500
12、5010.H.H7575武汉工程职业技术学院样题样题42在2010年足球世界杯上,章鱼保罗大显身手,在8次重要的比赛中,它对于胜负的预测全部正确。统计学家怀疑究竟章鱼是偶然猜对还是章鱼真能神机妙算(或另有隐情),需要建立怎样的假设检验?A进行“单比率”检验,H0:比率p=0.5 vs H1:比率p0.5B进行“单比率”检验,H0:比率p=0.5 vs H1:比率p0.5D进行“单比率”检验,H0:比率p=0 vs H1:比率=17676武汉工程职业技术学院(2)给出犯两类错误的概率)给出犯两类错误的概率,假设检验是根据样本做出是否拒绝原假设的决策。我们希望:当原假设成立时,我们没有拒绝它;当原
13、假设不成立时,我们拒绝它。而样本是随机的,我们有可能犯下面两类错误:决策结果决策结果实际情况实际情况H0正确正确H0不正确(不正确(H1正确)正确)未拒绝未拒绝H0正确决策,正确决策,概率为概率为1-,1-也称也称置信水平或置信度。置信水平或置信度。第第类错误,也称类错误,也称“取伪取伪”错错误,概率为误,概率为。拒绝拒绝H0第第类错误,也称类错误,也称“弃真弃真”错误错误,概率为,概率为,也称为显著性水平也称为显著性水平。正确决策,正确决策,概率为概率为1-,1-称称检出力或检出功效。检出力或检出功效。原假设被拒绝时,原假设被拒绝时,才可能会犯第才可能会犯第类错误;类错误;原假设未被拒绝时原
14、假设未被拒绝时,可能会犯第可能会犯第类错误。样本量类错误。样本量n一定时,一定时,减小,减小,会增大;会增大;增增大,大,会减小,只有增大样本量会减小,只有增大样本量才能才能同时减小同时减小 和和。6.2 假设检验假设检验7777武汉工程职业技术学院6.2 假设检验假设检验(3)确定要从实际出发确定什么样的差别是有意义的。6543210-1-2-30.40.30.20.10.0X X密密度度02均值分分布布图图正态,标准差=1 017878武汉工程职业技术学院(4)选择检验统计量,确定统计工具)选择检验统计量,确定统计工具检验统计量类型的选择实际上就是确定统计量抽样分布的形式。基于以下两点:要
15、检验的参数已知条件如,方差已知的单正态总体的均值检验,选择Z统计量,使用“单样本Z”检验。6.2 假设检验假设检验7979武汉工程职业技术学院(5)计算样本量检验问题实际就是判断样本是来源于哪个总体。543210-1-2-3-42.01.51.00.50.0X X密密度度0100.21110.2均 值标 准 差分分 布布 图图正 态不同样本量样本均值分布对比图不同样本量样本均值分布对比图n=1n=256.2 假设检验假设检验8080武汉工程职业技术学院(5)计算样本量计算样本量样本量的计算公式见蓝皮书P158,例总体标准差已知,单样本Z检验的样本量计算公式:2211)()ZZ(n单边检验时:结
16、论:要同时降低犯两类错误的风险,必须增大样本量;总体方结论:要同时降低犯两类错误的风险,必须增大样本量;总体方差变大,要保持原来的风险,必须增大样本量;拟检查差异变小,差变大,要保持原来的风险,必须增大样本量;拟检查差异变小,必须增大样本量。必须增大样本量。样本量的大小取决于决策错误的风险、总体标准差的大小、拟检查的差异大小这三个方面的因素。6.2 假设检验假设检验8181武汉工程职业技术学院例:假设钢筋抗拉强度服从正态分布,原钢筋平均抗拉强度 2000Kg,标准差300kg,调整参数后若平均抗拉强度2150Kg,就认为钢筋抗拉强度是否有所提高。问:判断钢筋抗拉强度是否有所提高需要多大的样本量
17、?1、建立假设 H0:2000 H1:2000 2、确定 =0.05 =0.13、确定取=2150-2000=150kg因为:Z0.95=1.645 Z0.9=1.28,带入公式:2211)()ZZ(n35234150300281645122,向上取整为.)().(n4、手动计算样本量:Minitab计算样本量:统计计算样本量:统计功效和样本数量功效和样本数量单样本单样本Z6.2 假设检验假设检验8282武汉工程职业技术学院(6)数据采集)数据采集根据计算的样本量采集样本样本尽可能覆盖各种变异源的波动范围 不同批次 不同操作人员 不同设备 不同外部环境.6.2 假设检验假设检验8383武汉工程
18、职业技术学院(7)计算检验统计量)计算检验统计量检验统计量是根据样本计算得到的,是对样本信息的概括。检验统计量是对总体参数的点估计值,但这个点估计值只有标准化后才能反映样本的点估计值与假设的总体参数相比差多少个抽样标准差。点估计值的抽样标准差假设值点估计值标准化检验统计量注:我们平时所说的检验统计量就是指标准化的检验统计量。如,方差已知的单正态均值检验,统计量Z的计算:6.2 假设检验假设检验8484武汉工程职业技术学院A:H1:0B:H1:Z0.95=1.645,落入拒绝域,所以拒绝原假设。4、钢筋平均抗拉强度确实有提高。临界值临界值拒绝域H0:2000 6.2 假设检验假设检验8686武汉
19、工程职业技术学院(8)判断方法二)判断方法二置信区间法置信区间法例:假设钢筋抗拉强度服从正态分布,原钢筋平均抗拉强度 2000Kg,标准差300kg,调整参数后抽取了25根,测得平均抗拉强度2150。问:能否断言钢筋平均抗拉强度有所提高?=0.05(1)求置信区间的下限(2)置信区间的下限2051.32000,置信区间中不包含原假设参数2000,所以拒绝原假设。(3)钢筋平均抗拉强度确实有提高。3.20517.98215060645.1215025300Z2150nZX95.016.2 假设检验假设检验8787武汉工程职业技术学院(8)判断方法三)判断方法三P值值p值是概率,是在原假设成立的前
20、提下,出现目前样本状况或对原假设更为不利状况的概率。目前样本状况的信息通过检验统计量体现,对原假设更不利的状况与备择假设的类型有关。所以,P值与检验统计量和备择假设的类型有关。6.2 假设检验假设检验8888武汉工程职业技术学院(8)判断方法三)判断方法三P值法值法A:H1:0B:H1:0C:H1:0ppp/2p/2)(PcZZp)ZZ(P1)ZZ(Ppcc)(PCZZp6.2 假设检验假设检验8989武汉工程职业技术学院例:假设钢筋抗拉强度服从正态分布,原钢筋平均抗拉强度 2000Kg,标准差300kg,调整参数后抽取了25根,测得平均抗拉强度2150。问:能否断言钢筋平均抗拉强度有所提高?
21、假定=0.05,=0.2。5.26015025/30020002150n/xZ0c2、计算检验统计量4、p,所以拒绝原假设。5、钢筋平均抗拉强度确实有提高。1、H0:2000 3、计算p值0062.09938.01)5.2Z(P1)5.2ZPp(p6.2 假设检验假设检验9090武汉工程职业技术学院p值与样本量值与样本量n的关系的关系当样本量n越大时,检验统计量的绝对值就越大,p值就越小,就越有可能拒绝原假设。p值与检验统计量、备择假设类型有关,而检验统计量与样本量n有关,所以p与样本量n有关。n/xZ06.2 假设检验假设检验9191武汉工程职业技术学院例:某公司生产铝盘,铝盘上镀磁性材料厚
22、度要求为例:某公司生产铝盘,铝盘上镀磁性材料厚度要求为505mm,从生产线取从生产线取20万个数据,均值为万个数据,均值为50.3mm,标准差,标准差1mm,进行假设,进行假设检验判断该生产线生产是否正常,结果检验判断该生产线生产是否正常,结果p0.05,我们能否认为该生,我们能否认为该生产线生产不正常?产线生产不正常?样本量太小,不能发现差别。样本量太大,则太过灵敏,没有实际意义。样本量很重要的,报告p值的同时,也要报告样本量。6.2 假设检验假设检验9292武汉工程职业技术学院连续数据连续数据正态分布或正态分布或大样本非正大样本非正态分布态分布小样本且非小样本且非正态分布正态分布均值检验均
23、值检验单样本单样本Z单样本单样本t双样本双样本t配对配对t单因子方差分析单因子方差分析方差检验方差检验单方差单方差双方差双方差等方差等方差非参数检验非参数检验离散数据离散数据比例检验比例检验单比率单比率双比率双比率卡方卡方假设检验假设检验正态分布正态分布参数检参数检验验6.2.3 假设检验的类型假设检验的类型9393武汉工程职业技术学院单总体均值检验(与某一具体值比较)单总体均值检验(与某一具体值比较)双总体均值差检验双总体均值差检验配对检验配对检验多总体均值检验多总体均值检验6.2.4 均值检验均值检验9494武汉工程职业技术学院单总体单总体 独立性检验独立性检验 正态性检验(小样本)正态性
24、检验(小样本)双总体或多总体双总体或多总体 独立性检验独立性检验 样本内数据独立样本内数据独立 样本间数据独立样本间数据独立 正态性检验(小样本)正态性检验(小样本)两组或多组数据都服从正态分布两组或多组数据都服从正态分布 等方差检验等方差检验对均值检验,样本量对均值检验,样本量n30时,可以不进行正态性检验。时,可以不进行正态性检验。6.2.4 均值检验均值检验9595武汉工程职业技术学院独立性检验独立性检验 样本内数据独立样本内数据独立 样本量样本量40 质量工具质量工具 运行图运行图 样本量样本量40 40 统计统计 非参数统计非参数统计 游程检验游程检验 样本间数据独立样本间数据独立
25、统计统计 基本统计量基本统计量 相关相关正态性检验正态性检验 统计统计 基本统计量基本统计量 正态性检验正态性检验等方差检验等方差检验 统计统计 方差分析方差分析 等方差检验等方差检验6.2.4 均值检验均值检验9696武汉工程职业技术学院1.单总体均值检验流程单总体均值检验流程大样本大样本?n=30总体方差是否已知总体方差是否已知总体是否总体是否服从正态分布服从正态分布总体方差是否已知总体方差是否已知将样本容量将样本容量增加到增加到30或非参数检验或非参数检验用样本方差代替用样本方差代替用样本方差代替用样本方差代替是是否否是是否否是是否否nxz/nxz/sn/sxt是是否否nxz/单样本Z单
26、样本t或单样本z单样本Z单样本t9797武汉工程职业技术学院1.单总体均值检验单总体均值检验检验法条件H0H1检验统计量拒绝域Z检验已知大样本或正态小样本 00=0 0Z 1-Z Z 1-/2Z检验未知大样本 0 0=0 0Z 1-Z Z 1-/2t检验未知正态小样本0 0=0 0t 1-(n-1)t t 1-/2(n-1)n/xZ0n/sxt0n/sxZ09898武汉工程职业技术学院例(蓝书 P115)抽查面粉的装包重量,其每包重量在正常生产条件下均值为20Kg,标准差为0.1Kg,某日在生产的产品中抽查16包。问当日生产的面粉均值是否正常?(BS_面粉重量.mtw)n质量工具运行图 正态性
27、检验 因为n Z 1-/2因为=0.05 所以临界值Z0.975=1.96,拒绝域为:|Z|1.96结论:拒绝原假设,该天面粉均值不正常。结论:拒绝原假设,该天面粉均值不正常。1.单总体均值检验单总体均值检验9999武汉工程职业技术学院1615141312111098765432120.320.220.120.019.9观观 测测 值值面面粉粉重重量量关 于 中 位 数 的 游 程 个 数:10期 望 游 程 个 数:9.0关 于 中 位 数 的 游 程 最 大 长 度:2检 验 聚 类 性 的 近 似 p 值:0.698混 合 的 近 似 P 值:0.302向 上 或 向 下 的 游 程 个
28、 数:10期 望 游 程 个 数:10.3向 上 或 向 下 的 游 程 最 大 长 度:3检 验 趋 势 性 的 近 似 p 值:0.417检 验 振 动 性 的 近 似 p 值:0.583面面 粉粉 重重 量量 的的 运运 行行 图图检验聚类性的近似检验聚类性的近似P值值0.05:出现了差别细微的成出现了差别细微的成堆数据。堆数据。混合的近似混合的近似P值值0.05:数据中有很多相同的值。数据中有很多相同的值。检验趋势的近似检验趋势的近似P值值0.05:有连续上升或下降趋势。有连续上升或下降趋势。检验振动的近似检验振动的近似P值值 t 1-/2(n-1)。t0.975(15)=2.131,
29、拒绝域为:|t|2.131结论:该天面粉均值不正常。结论:该天面粉均值不正常。1.单总体均值检验单总体均值检验独立性检验(略)正态性检验(略)建立假设:H0:=20 H1:20102102武汉工程职业技术学院2.两总体均值检验流程均值检验均值检验独立样本独立样本配对样本配对样本大样本大样本小样本、正态小样本、正态方差已知方差已知方差已知方差已知方差未知方差未知Z检验检验方差相等方差相等大样本或大样本或正态小样本正态小样本配对配对T检验检验方差未知方差未知Z检验检验Z检验检验方差不等方差不等双双T检验检验(勾选等方差勾选等方差)双双T检验检验(不勾选等方差不勾选等方差)注:注:minitab工具
30、中无工具中无“双双z检验检验”,所以用所以用“双双t检验检验”代替。代替。103103武汉工程职业技术学院独立双总体与配对总体的区别独立双总体与配对总体的区别两组数据针对两组个体数据无需对应样本观测值彼此不影响两组数据样本量可以不同两组数据是针对一组个体处理前后或两种不同处理的结果样本数据成对出现,一一对应样本数据组间不独立两组数据样本量一定相同独立双总体配对总体104104武汉工程职业技术学院3.两总体均值差检验两总体均值差检验检验检验法法条件条件H0H1检验统计量检验统计量拒绝域拒绝域Z检验检验1,2已知已知1=21=21=2 121z1-zz1-/2t检验检验未知但相未知但相等等1=21
31、=21=2 121t1-(n+m-2)tt1-/2(n+m-2)近似近似t检验检验1,2未知且不未知且不相等相等1=21=21=2 121t1-()tt1-/2()3.两总体均值差检验两总体均值差检验检检验法验法条件条件H0H1检验统计量检验统计量拒绝域拒绝域Z检验检验1,2已知已知1=21=21=2 121z1-zz1-/2105105武汉工程职业技术学院3.两总体均值差检验两总体均值差检验106106武汉工程职业技术学院检验检验法法条件条件H0H1检验统计量检验统计量拒绝域拒绝域t检验检验未知未知但相等但相等1=21=21=2 121t1-(n+m-2)tt1-/2(n+m-2)3.两总体
32、均值差检验两总体均值差检验107107武汉工程职业技术学院检验检验法法条件条件H0H1检验统计量检验统计量拒绝域拒绝域近似近似z检验检验1,2未知未知m,n大大样本样本 121z1-zz1-/2F检检验验108108武汉工程职业技术学院例(蓝书 P128)一家冶金公司用氧气取代空气吹入活化泥以改善BOD,在两种处理的废水中,分别抽取样品如下:(BS_生物氧需求量)问:改用氧气是否能显著降低BOD含量?统计基本统计量双样本t空气184194158218186218165172191179氧气163185178183171140155179175p=0.029基本统计量单样本t P=0.035方法
33、一:使用原始列,使用配对t检验统计基本统计量配对t P=0.035 配对t检验注:如果将此问题误当作是普通的双样本均值检验,得到P=0.901,结论为两种分析方法无显著差异。这是因为不同矿物之间的差异(组内差异)很大,掩盖了两种测量方法间的差异(组间差异)。可见,如果将配对观测数据误作为普通两样本数据来分析,很容易犯第二类错误(纳伪)而得不到正确结论。4.配对样本检验配对样本检验112112武汉工程职业技术学院(1)方差检验的前提条件样本量一般在30以上正态性检验单总体方差检验总体服从正态分布:标准法总体为任何连续分布:调整法双总体方差检验两总体均服从正态分布:F检验总体为任何连续分布:Lev
34、ene检验多总体等方差检验各总体均服从正态分布:Bartletts检验总体为任何连续分布:Levene检验5.方差检验方差检验113113武汉工程职业技术学院方差检验单总体双总体多总体正态?正态?正态?统计基本统计量单方差(标准法p值)统计基本统计量单方差(调整法p值)统计基本统计量双方差(F检验p值)统计基本统计量单方差(levene检验p值)统计方差分析等方差检验(Bartletts检验p值)统计方差分析等方差检验(levene检验p值)是是是否否否5.方差检验方差检验114114武汉工程职业技术学院0.160.140.120.100.080.060.040.020.00X X密密度度0.
35、02512.80.0250.831分分布布图图卡方,自由度=5。的卡方分布,记作已知时,服从自由度为当。的卡方分布,记作未知时,服从自由度为当的抽样分布计量由样本方差构造出的统若总体服从正态分布,)()1(n)1()1(1-n)1(22222222nsnnsnsn2/22/12)1()1()1()1()1()1()1(2/2222/1222/12222/2nsnnsnnsnn5.方差检验方差检验115115武汉工程职业技术学院根据备择假设的类型和给出临界值,确定拒绝域:2021H:2021H:2021H:0.160.140.120.100.080.060.040.020.00X X密密度度0.
36、050分分布布图图卡方,自由度=5)1(12n0.160.140.120.100.080.060.040.020.00X X密密度度1.150.050分分布布图图卡方,自由度=5)1(2n0.160.140.120.100.080.060.040.020.00X X密密度度0.8310.02512.80.0250分分布布图图卡方,自由度=5)1(2/12n)1(2/2n5.方差检验方差检验116116武汉工程职业技术学院2022022022022022022022s1n)()()()()(/1-n1-n1-n1-n221222222212或H0H1拒绝域样本量应大于30,若总体服从正态分布,检
37、验统计量5.方差检验方差检验117117武汉工程职业技术学院例(蓝书 P136 例题5-12 BS_轴杆长度.mtw)已知,轴杆长度原来的标准差0=0.1,随机抽取的30根轴杆测量长度,问:轴杆的标准差是否确实有降低?(=0.05)(1)正态性检验 p=0.511(2)建立假设:H0:0.1 H1:0.1(3)计算检验统计量:(4)由于备择假设的类型为左侧检验,所以拒绝域的形式为:(5)检验统计量16.45 p 0左侧检验:H1:p 0.6(2)计算检验统计量:因为 ,所以采用近似Z检验:(3)由于备择假设的类型为右侧检验,拒绝域的形式为 ZZ1-=0.05时,Z1-=1.645(4)检验统计
38、量Z=0.913基本统计量单比率 P=0.193,不能拒绝原假设。不勾选此项,计算机自动按二项分布精确计算;勾选此项,按正态分布近似计算;一般情况下,不必选此项,除非样本量特别大。6.比率检验比率检验130130武汉工程职业技术学院例(蓝书P163例题6-1修改)随机抽取5000位小学生进行视力检测,其中3100位近视。问:是否可以认为小学生近视比率超过6成?(=0.05)(1)建立假设 H0:=0.6 H1:0.6(2)计算检验统计量:因为 ,所以采用近似Z检验(3)由于备择假设的类型为右侧检验,拒绝域的形式为 ZZ1-=0.05时,Z1-=1.645(4)检验统计量Z=2.881.645,
39、落入拒绝域,拒绝原假设。(5)结论:小学生近视比率超过6成。5p1n5pn 0.90.62p10)(.且882500040606050003100n1pz000./.*./)(6.比率检验比率检验131131武汉工程职业技术学院例(蓝书 P167 例题6-2)分别从两种工艺条件下抽取1500片及1800片芯片,A种工艺条件下有340片一等品,B种工艺条件下有350件一等品。问:A工艺条件下比B工艺条件下有较高的一等品率吗?(=0.05)(1)建立假设 H0:1=2 H1:1 2(2)计算检验统计量:因为样本量较大,所以采用近似Z检验(3)由于备择假设的类型为右侧检验,拒绝域的形式为 ZZ1-=
40、0.05时,Z1-=1.645(4)检验统计量Z=2.2671.645,落入拒绝域,拒绝原假设。(5)结论:A工艺条件下比B工艺条件下有较高的一等品率。209.0mnp mp np 194.01800350p 227.01500340p 1800m,1500n2121267.2209.01*209.0*1800115001194.0227.0)p 1(p m1n1p p z21)()()(6.比率检验比率检验132132武汉工程职业技术学院统计基本统计量双比率 P=0.012,拒绝原假设。例(蓝书 P167 例题6-2)分别从两种工艺条件下抽取1500片及1800片芯片,A种工艺条件下有340
41、片一等品,B种工艺条件下有350件一等品。问:A工艺条件下比B工艺条件下有较高的一等品率吗?(=0.05)一般情况下,不必选此项,除非样本量特别大。6.比率检验比率检验133133武汉工程职业技术学院例(蓝书 P168 例题6-3)甲乙两种品牌的手机,访问使用甲品牌的顾客800位,340位满意;访问使用乙品牌的顾客600位,180位满意。问:甲品牌的顾客满意率比乙品牌的顾客满意率高5%以上吗?(=0.05)(1)建立假设 H0:1-2=0.05 H1:1-2 0.05(2)计算检验统计量:因为样本量较大,所以采用近似Z检验(3)由于备择假设的类型为右侧检验,拒绝域的形式为 ZZ1-=0.05时
42、,Z1-=1.645(4)检验统计量Z=2.9291.645,落入拒绝域,拒绝原假设。(5)结论:甲品牌的顾客满意率比乙品牌的顾客满意率高5%以上。3.0600180p 425.0800340p 600m,800n21929.26007.03.0800575.0425.005.03.0425.0)(m)p 1(p n)p 1(p d)p p(z2211216.比率检验比率检验134134武汉工程职业技术学院统计基本统计量双比率例(蓝书 P168 例题6-3)甲乙两种品牌的手机,访问使用甲品牌的顾客800位,340位满意;访问使用乙品牌的顾客600位,180位满意。问:甲品牌的顾客满意率比乙品牌
43、的顾客满意率高5%以上吗?(=0.05)6.比率检验比率检验135135武汉工程职业技术学院双比率检验和置信区间双比率检验和置信区间 样本样本 X N 样本样本 p1 340 800 0.4250002 180 600 0.300000差值差值=p(1)-p(2)差值估计差值估计:0.125差值的差值的 95%置信下限置信下限:0.0828883差值差值=0.05(与与 0.05)的检验的检验:Z=2.93 P 值值=0.002结论:P=0.002,拒绝原假设。6.比率检验比率检验136136武汉工程职业技术学院例:(蓝书P142例5-15)考察温度对烧碱产品得率的影响,选择四种不同的温度进行
44、试验,在同一温度下进行了5次试验。显著性水平0.05,判断温度对烧碱产品得率是否有显著影响。ANOVA_单因子.MTW温度0C60657075得率Yij%90959691929396908891979389929489929592886.3 方差分析方差分析137137武汉工程职业技术学院(1)因子:对指标有影响的因素。常用大写字母表示。上例中温度对烧碱产品得率有影响,温度是因子,记为A。(2)水平:在试验中因子所处的状态称为因子的水平。用因子的字母加下标表示。上例中有四个温度,即因子A有4个水平,分别用A1、A2、A3、A4表示。(3)试验条件(处理):在一次试验中,每个因子总取一个特定的水
45、平,若干因子各取一个特定的水平构成的组合称其为一个试验条件。上例中只有一个因子,每一个水平就是一个试验条件。(4)指标:衡量试验条件好坏的量称为指标,用y表示。上例中的烧碱产品的得率即为指标。基本概念基本概念138138武汉工程职业技术学院试验中只有一个因子A,有r个水平,每一水平下进行m次重复试验,结果用yi1、yi2,yim(r=1,2,r表示)。记第i水平下的数据均值为 ,总均值为 。方差分析需要满足三个条件:(1)在水平Ai下,yi1、yi2,yim是来自正态分布N(,2)的一个样本,其中诸i就是要比较的对象。(2)在不同水平下的方差相等。(3)各数据yij相互独立。只要试验次序随机化
46、一般可满足。满足上述三个条件,诸总体均值是否相等的问题归结为一个假设检验问题:单因子方差分析的模型单因子方差分析的模型yiy不全相等、r211r210.:H.:H139139武汉工程职业技术学院单因子方差分析的基本思想单因子方差分析的基本思想(1)平方和分解上述n=rm个数据之间的波动可用总偏差平方和SST表示:(2)因子A的水平不同引起组间偏差平方和:(3)随机误差用组内偏差平方和表示:可以证明:SST=SSA+SSer1im1j2ij)yy(SST2r1i.i)yy(mSSA2.11)(irisjijyySSe140140武汉工程职业技术学院单因子方差分析的基本思想单因子方差分析的基本思想
47、(2)自由度与均方和(平均偏差平方和)上述诸平方和的大小与数据个数有关,需要引入自由度的概念:SST、SSA、SSe的自由度分别用dfT、dfA、dfe表示:在SST的n=rm个偏差中有故SST的自由度为n-1。在SSA的r个偏差中有故SSA的自由度为r-1。在SSe的n=rm个偏差中有r个关系式故SSe的自由度为n-r。将因子或误差的偏差平方和除以自由度称为均方和:MSA=SSA/dfA,MSe=SSe/dfe。0yy(r1im1jij)0)yy(.ir1iiy0)yy(r1i.i141141武汉工程职业技术学院单因子方差分析的基本思想单因子方差分析的基本思想(3)F比与拒绝域当MSA比MS
48、e大很多时,可以认为因子A是显著的。F=MSA/MSe(4)方差分析表手动计算示例 MINITAB实现来源偏差平方和自由度均方和F比因子ASSAdfA=r-1MSA=SSA/dfAF=MSA/MSe误差eSSedfe=n-rMSe=SSe/dfe总计TSSTdfT=n-1142142武汉工程职业技术学院2j2i12k22210HH:至少有一对:.单因子方差分析单因子方差分析单因子方差分析需要具备的条件(非常重要):(1)各水平下的观测值独立;)各水平下的观测值独立;(2)各水平下的观测值服从正态分布;)各水平下的观测值服从正态分布;(3)不同水平下的观测值等方差。)不同水平下的观测值等方差。例
49、(蓝书P142 ANOVA_单因子.mtw)检验方差是否相等。143143武汉工程职业技术学院数据服从正态:Bartletts检验数据非正态连续:Levene检验7 57 06 56 09876543210温温度度9 9 5 5%标标 准准 差差 B B o o n n f f e e r r r r o o n n i i 置置 信信 区区 间间检 验 统 计 量0.0 7P 值0.9 9 5检 验 统 计 量0.0 0P 值1.0 0 0B a r t l e t t 检 验L e v e n e 检 验得得 率率 等等 方方 差差 检检 验验正态分布检验(图形 概率图多个,可以一次完成多
50、组数据的正态性检验)统计方差分析等方差检验Bartletts检验,p=0.996,不能拒绝原假设结论:四种温度对应得率的方差相等的。5.方差检验方差检验144144武汉工程职业技术学院如果在一个试验中需要同时考虑两个因子A和B,设因子A有r个水平,因子B有s个水平,有n个总体,n=rs个不同的试验条件。例6-16 现有4条生产线生产同一种垫片,为了解不同生产线的垫片的断裂强度有无明显差异,现分别用5种不同的温度进行试验。在假定不同条件下垫片的断裂强度分别服从等方差的正态分布,分别分析不同生产线及不同温度对垫片的断裂强度均值有无显著影响。如果有影响,在什么条件下垫片的断裂强度最大?两因子方差分析
51、两因子方差分析生产线1234断裂强度温度70088.689.595.790.6温度75086.088.086.692.6温度80087.089.188.892.4温度85089.391.993.191.8温度90081.284.085.795.1145145武汉工程职业技术学院1、交互作用的概念在农田试验中,考虑两个因子,每个因子皆为2水平。A:浇水。低水平,水少;高水平,水多。B:施肥。低水平,肥少,高水平,肥多,以产量为响应变量(单位:kg),列表如下:表 1 可加模型数据表 A B水少水多肥少100120肥多130150两因子方差分析两因子方差分析146146武汉工程职业技术学院主效应:
52、忽略其他因子的影响,因子主效应:忽略其他因子的影响,因子A在高、低两水平对在高、低两水平对Y的影的影响称为因子响称为因子A的主效应。的主效应。不考虑因子B,A处于低水平时的产量平均值为(100+130)/2=115kg,A处于高水平的产量平均值为(120+150)/2=135kg。产量由115kg提高到135kg完全是因子A的作用,称因子A的“主效应”为20kg。低高的平均值的平均值的主效应因子AAYYA不考虑因子A,当因子B(肥料)处于高水平时的效应为(150+130)/2=140kg,当因子B(肥料)处于低水平时的效应为(100+120)/2=110kg,因子B的主效应为30kg。两因子方
53、差分析两因子方差分析147147武汉工程职业技术学院当因子B(肥料)处于高水平时因子A的效应为150-130=20kg,当因子B(肥料)处于低水平时因子A的效应仍然为130-110=20kg,二者完全相同。同样,当因子A(水)处于高水平时因子B的效应为150-120=30kg,当因子A处于低水平时因子B的效应为130-100=30kg,二者也相同。上述情况说明因子A对因子B效应的没有影响,因子B对因子A效应也没有影响,称两因子没有交互作用。绘制两因子交互作用图,则显示两条平行的直线。(数据文件)两因子方差分析两因子方差分析148148武汉工程职业技术学院1-115014013012011010
54、0肥肥料料平平均均值值-11水产产量量 交交互互作作用用图图数据平均值两因子方差分析两因子方差分析149149武汉工程职业技术学院另一组数据:表 2 有交互作用数据表 A B水少水多肥少100120肥多130170两因子方差分析两因子方差分析150150武汉工程职业技术学院由于A处于低水平时的产量平均值为(100+130)/2=115kg,A处于高水平时的产量平均值为(120+170)/2=145kg。称因子A的“主效应”为145-115=30kg。同样可以算出因子B的主效应:因子B的主效应=(130+170)/2-(100+120)/2=40kg。当因子B处于高水平时,因子A的主效应为270
55、-230=40kg,当因子B处于低水平时,因子A的主效应为220-20=20kg,二者大不相同。两因子方差分析两因子方差分析151151武汉工程职业技术学院1-1170160150140130120110100肥肥料料平平均均值值-11水产产量量 交交互互作作用用图图数据平均值两因子方差分析两因子方差分析152152武汉工程职业技术学院两因子方差分析两因子方差分析无交互作用的双因子方差分析rs-1总和(r-1)(s-1)误差s-1因子Br-1因子AF值均方平方和自由度波动源21.)(yysSSArii21.)(yyrSSBsjjrij.sj.iije)yyyy(SS121risjijT)yy(
56、SS1211rSSAMSA1sSSAMSB)s)(r(SSMSee111rsSSMSTTMSEMSAMSEMSB手工计算 MINITAB计算示例153153武汉工程职业技术学院例,不同城市有关部门完成任务的情况统计如下(TBL_及时率.mtw)列联表的用途很多,多总体比率检验只是列联表应用之一。问:三个城市完成任务的及时率是否有显著差别?城市及时不及时A200100B300100C15090分析:“三个城市完成任务的及时率是否有显著差别”的问题,可以转化为另外一种说法:完成任务的及时情况是否与城市有关?即“完成任务情况”这个因子是否与“城市”这个因子相互独立?所以,多个总体比率是否相等的检验就
57、转化为因子间是否独立的检验。6.4 列联表与卡方检验列联表与卡方检验154154武汉工程职业技术学院城市城市及时及时不及时不及时合计合计A200100300B300100400C15090240合计合计650290940列联表独立性检验原理:(1)建立假设:H0:因子A与因子B相互独立 H1:因子A与因子B不独立 (2)确定检验统计量:为列数)为行数,其中,即表示所有观测值之和列上的观测数据之和表示第行上的观测数据之和表示第列的观测数据行第表示第cr(OOn:n,jOiO,jiOr1ic1jj.ij.iijOijO.jOi.n6.4 列联表与卡方检验列联表与卡方检验155155武汉工程职业技术
58、学院 (2)确定检验统计量:2j.iji.ji.ijj.ji.i.j.iijj.iijijjinOOn.O nOp p p n.Op nOp p p pppppBA,下估计:都是未知的,常采用以。实际问题中,一定满足:率值交叉的单元格之内的概和入如果两因子独立,则落城市及时不及时合计A200(0.22)100(0.098)300(0.32)B300(0.29)100(0.131)400(0.43)C150(0.18)90 (0.079)240(0.25)合计650 (0.69)290 (0.31)9406.4 列联表与卡方检验列联表与卡方检验156156武汉工程职业技术学院nOOpnEBAj.
59、iijijji值:交叉的单元格内的期望与(2)确定检验统计量:城市及时不及时合计A200(0.22940=207.45)100(0.098940=92.55)300(0.32)B300(0.29940=276.6)100(0.131940=123.4)400(0.43)C150(0.18940=165.96)90 (0.079940=74.04)240(0.25)合计650 (0.69)290 (0.31)9406.4 列联表与卡方检验列联表与卡方检验157157武汉工程职业技术学院r0ic0jij2ijij2ijij2E)EO(EO差值大小的统计量:与期望值就是表示实际观测值259.1274
60、907496.16515096.1654.1231004.1236.2763006.27655.9210055.9245.20720045.2072222222)()()()()()(2)确定检验统计量:6.4 列联表与卡方检验列联表与卡方检验158158武汉工程职业技术学院111222022crHEOijij检验的拒绝域为:,所以偏大时,就应该拒绝差值大小的统计量,与期望值是表示实际观测值因为 (3)确定拒绝域:(4)依据卡方的值是否落入拒绝域或p值是否小于做出结论。6.4 列联表与卡方检验列联表与卡方检验159159武汉工程职业技术学院(1)建立假设:H0:因子A与因子B相互独立 H1:因
61、子A与因子B不独立(2)确定检验统计量:259.1274907496.16515096.1654.1231004.1236.2763006.27655.9210055.9245.20720045.2072222222)()()()()()(3)显著性水平为的拒绝域:为列数为行数,其中,cr)1c()1r(12299.5212)(4)检验统计量12.2595.99,拒绝原假设。6.4 列联表与卡方检验列联表与卡方检验160160武汉工程职业技术学院47.为了判断A 车间生产的垫片的变异性是否比B 车间生产的垫片的变异性更小,各抽取25 个垫片后,测量并记录了其厚度的数值,发现两组数据都是正态分布
62、。下面应该进行的是:A 两样本F 检验B 两样本T 检验C 两样本配对差值的T 检验D 两样本Mann-Whitney 秩和检验样题样题161161武汉工程职业技术学院49.原来本车间生产的钢筋抗拉强度不够高,经六西格玛项目改进后,钢筋抗拉强度似有提高。为了检验钢筋抗拉强度改进后是否确有提高,改进前抽取8 根钢筋,改进后抽取10 根钢筋,记录了他们的抗拉强度。希望检验两种钢筋的抗拉强度平均值是否有显著差异。经检验,这两组数据都符合正态分布。在检查两样本的方差是否相等及均值是否相等时,用计算机计算得到下列结果。样题样题162162武汉工程职业技术学院57为了研究全国主要城市银行对第二套住房发放贷
63、款宽严程度是否相同。调查了北京、上海和深圳三个城市的黄金商业区的四大银行贷款综合情况,记录了申请总数、批准数和未批准数:城市申请总数批准数未准数北京23640196上海23052178深圳19767130总计663159504样题样题163163武汉工程职业技术学院 批准数 未准数合计1 40 196236 56.60179.40 4.8671.535252178230 55.16174.84 0.1810.057367130197 47.24149.76 8.2612.606合计 318 1008 1326卡方=17.508,DF=3,P 值=0.001基于该结果,正确的解释是:A三城市的银
64、行对第二套住房发放贷款宽严程度没有什么不同B三城市的银行对第二套住房发放贷款宽严程度显著不同C该问题自由度太小,得不出结论D以上都不对样题样题164164武汉工程职业技术学院47众所周知,驾龄不到3年的司机发生重大交通事故的比率是很高的。从M市保险公司交强险的统计部门获得2009年的如下信息(小事故及协调处理的事故未列其中):将驾龄按“小于3年”、“3年至10年”、“10年以上”分为三类(C1),将司机总人数(C3),出过事故的司机数(C2)分别统计,补充计算得出“无事故司机数(C4)”及“出事故的司机比率(C5)”。粗略统计可以看出,驾龄小于3年的司机人数大约占总司机数的20%,但事故数占4
65、5%左右,驾龄小于3年的司机的事故率显著高于后两种驾龄的司机。如何用统计分析方法确认不同驾龄的事故发生比率有显著的不同呢?样题样题165165武汉工程职业技术学院正确的方法是:A将C2及C3两列数据放入卡方检验表,进行卡方检验B将C2及C4两列数据放入卡方检验表,进行卡方检验C将C2及C5两列数据放入卡方检验表,进行卡方检验D将C3及C3两列数据放入卡方检验表,进行卡方检验样题样题166166武汉工程职业技术学院6.5 非参数检验非参数检验参数检验1、寻找数据不独立的因素。2、样本量大时,采用时间序列分析。非参数检验数据独立 数据不独立正态分布非正态分布167167武汉工程职业技术学院参数检验
66、非参数检验均值检验比率检验正态性检验方差检验游程检验秩和检验符号检验假假设设检检验验符号秩检验若数据服从正态分布,则参数检验和非参数检验均可使用,但非参数检验的检出力比参数检验的小。6.5 非参数检验非参数检验168168武汉工程职业技术学院1.符号检验法符号检验法例1:现有两款手机,价格及功能基本相同,但设计外形不同。经抽样调查,发现在12人中,喜欢A的有2人,喜欢B的有10人,问喜欢两种品牌的人数有显著差别吗?1、小样本情况分析:设喜欢A的比率为p。H0:p=0.5 H1:p0.5n30单比率检验使用的是大样本近似正态的分析方法。169169武汉工程职业技术学院(1)小样本情况(n30)记喜欢A的为“”,喜欢B的为“”。()号的个数服从p=0.5的二项分布。表示号的个数表示号的个数nn例1:现有两款手机,价格及功能基本相同,但设计外形不同。经抽样调查,发现在12人中,喜欢A的有2人,喜欢B的有10人,问喜欢两种品牌的人数有显著差别吗?符号化1.符号检验法符号检验法170170武汉工程职业技术学院正号个数概率正号个数概率01234560.00020.00290.01610.05370
- 温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。