统计学及统计学软件使用教程

上传人:知****区 文档编号:64547171 上传时间:2022-03-21 格式:PPT 页数:258 大小:3.42MB
收藏 版权申诉 举报 下载
统计学及统计学软件使用教程_第1页
第1页 / 共258页
统计学及统计学软件使用教程_第2页
第2页 / 共258页
统计学及统计学软件使用教程_第3页
第3页 / 共258页
资源描述:

《统计学及统计学软件使用教程》由会员分享,可在线阅读,更多相关《统计学及统计学软件使用教程(258页珍藏版)》请在装配图网上搜索。

1、统计学及统计学软件使用教程统计学及统计学软件使用教程统计学及统计学软件使用教程1 统计学简介统计学简介2 3 回归分析回归分析4 正交设计正交设计5 统计分析软件统计分析软件SAS6 统计分析软件统计分析软件SPSS统计学及统计学软件使用教程 前言:前言:统计学简介统计学简介 什么是统计学:什么是统计学: 统计学是关于数理统计的收获、整理、分析和推断的一门科学,他可以分为描述性统计学和推断性统计学两大类。描述性统计学给出的是将原始数据资料加工成有用的图表的方法(例如:南阳汉冶特钢11月份不合格品综合判定统计分析),这些方法包括数据的收集、整理、概括和描述等。如果在研究中可以得到整个整体,那么描

2、述性统计学就足够了,但是,实际中往往只能得到总体的一小部分(成样本),这就需要通过这些样本的有限的、不确定的信息来确定有关总体的信息,这就是推断统计的研究领域。 统计学及统计学软件使用教程 统计学的理论基础是数理统计学,数理统计学是数学的一个分支,有一系列的公理、定理以及严格证明来组成,它还涉及到助学的其他领域,例如微积分、概率论合高等代数等。为了使这些理论也适用于一般的研究者,人们将其简单化,变的非数学化,由此产生了一般统计学。不同的专业领域(如建筑学,人类学、生物学、经济学等等)与一般统计学结合,就产生了相应的专业统计学。08【全美经典】统计学原理(上)【全美经典】统计学原理(上).pdf

3、08【全美经典】统计学原理(下)【全美经典】统计学原理(下).pdf统计学经典教材:统计学经典教材:统计学及统计学软件使用教程描述性统计学知识章节描述性统计学知识章节统计学及统计学软件使用教程统计学及统计学软件使用教程 推断性统计学知识章节推断性统计学知识章节统计学及统计学软件使用教程统计学及统计学软件使用教程统计学及统计学软件使用教程第一节第一节 方差分析方差分析 一、几个概念一、几个概念二、单因子方差分析二、单因子方差分析 统计学及统计学软件使用教程一、几个概念一、几个概念 在试验中改变状态的因素称为因子,常用大写在试验中改变状态的因素称为因子,常用大写英文字母英文字母A、B、C、等表示。

4、等表示。 因子在试验中所处的状态称为因子的水平。因子在试验中所处的状态称为因子的水平。用代表因子的字母加下标表示,记为用代表因子的字母加下标表示,记为A1,A2,Ak。 试验中所考察的指标(可以是质量特性也可试验中所考察的指标(可以是质量特性也可以是产量特性或其它)用以是产量特性或其它)用Y表示。表示。Y是一个随机变是一个随机变量。量。单因子试验:单因子试验:若试验中所考察的因子只有一个。若试验中所考察的因子只有一个。统计学及统计学软件使用教程例例2.1-1 现有甲、乙、丙三个工厂生产同一种零现有甲、乙、丙三个工厂生产同一种零件,为了了解不同工厂的零件的强度有无明显的差件,为了了解不同工厂的零

5、件的强度有无明显的差异,现分别从每一个工厂随机抽取四个零件测定其异,现分别从每一个工厂随机抽取四个零件测定其强度,数据如表所示,试问三个工厂的零件的平均强度,数据如表所示,试问三个工厂的零件的平均强度是否相同?强度是否相同? 工厂工厂 量件强度量件强度 甲甲 乙乙 丙丙 103 101 98 110 113 107 108 116 82 92 84 86三个工厂的零件强度三个工厂的零件强度 统计学及统计学软件使用教程在这一例子中,考察一个因子:在这一例子中,考察一个因子: 因子因子A:工厂:工厂该因子有三个水平:甲、乙、丙该因子有三个水平:甲、乙、丙试验指标是:零件强度试验指标是:零件强度 这

6、是一个单因子试验的问题。每一水平下的这是一个单因子试验的问题。每一水平下的试验结果构成一个总体,现在需要比较三个总体试验结果构成一个总体,现在需要比较三个总体均值是否一致。如果每一个总体的分布都是正态均值是否一致。如果每一个总体的分布都是正态分布,并且各个总体的方差相等,那么比较各个分布,并且各个总体的方差相等,那么比较各个总体均值是否一致的问题可以用方差分析方法来总体均值是否一致的问题可以用方差分析方法来解决。解决。统计学及统计学软件使用教程二、单因子方差分析二、单因子方差分析 假定因子假定因子A有有r个水平,在个水平,在Ai水平下指标服水平下指标服从正态分布,其均值为从正态分布,其均值为

7、,方差为,方差为 ,i=1,2, , r。每一水平下的指标全体便构成一个总体,共。每一水平下的指标全体便构成一个总体,共有有r个总体,这时比较各个总体的问题就变成比个总体,这时比较各个总体的问题就变成比较各个总体的均值是否相同的问题了,即要检验较各个总体的均值是否相同的问题了,即要检验如下假设是否为真:如下假设是否为真:i2统计学及统计学软件使用教程r:H 210 当当 不真时,表示不同水平下的指标的均不真时,表示不同水平下的指标的均值有显著差异,此时称因子值有显著差异,此时称因子A是显著的,否则是显著的,否则称因子称因子A不显著。检验这一假设的分析方法便不显著。检验这一假设的分析方法便是方差

8、分析。是方差分析。0H统计学及统计学软件使用教程 方差分析的三个基本假定方差分析的三个基本假定1. 在水平在水平 下,指标服从正态分布下,指标服从正态分布 ;iA),(Ni2 2. 在不同水平下,各方差相等;在不同水平下,各方差相等;3. 各数据各数据 相互独立。相互独立。ijy统计学及统计学软件使用教程 设在一个试验中只考察一个因子设在一个试验中只考察一个因子A,它有,它有r个个水平,在每一水平下进行水平,在每一水平下进行m次重复试验,其结果用次重复试验,其结果用 表示,表示,i=1,2, , r。 常常把数据列成常常把数据列成如下表格形式:如下表格形式:imiiy,y,y21单因子试验数据

9、表单因子试验数据表水平水平试验数据试验数据和和均值均值A1myyy11211,T11yA2myyy22221,T22yArrmrryyy,21Trry统计学及统计学软件使用教程 记第记第i水平下的数据均值为水平下的数据均值为 ,总均值为,总均值为 。此。此时共有时共有n=rm个数据,这个数据,这n个数据不全相同,它们的个数据不全相同,它们的波动(差异)可以用总离差平方和波动(差异)可以用总离差平方和ST去表示去表示iyy rimjijT)yy(S112记第记第i 水平下的数据和为水平下的数据和为Ti, ; mjijiyT1统计学及统计学软件使用教程引起数据波动(差异)的原因不外如下两个:引起数

10、据波动(差异)的原因不外如下两个: 一是由于因子一是由于因子A的水平不同,当假设的水平不同,当假设H0不真不真时,各个水平下指标的均值不同,这必然会使试时,各个水平下指标的均值不同,这必然会使试验结果不同,我们可以用组间离差平方和来表示,验结果不同,我们可以用组间离差平方和来表示,也称因子也称因子A的离差平方和:的离差平方和: riiAyymS12这里乘以这里乘以m是因为每一水平下进行了是因为每一水平下进行了m次试验。次试验。统计学及统计学软件使用教程 二是由于存在随机误差,即使在同一水平下二是由于存在随机误差,即使在同一水平下获得的数据间也有差异,这是除了因子获得的数据间也有差异,这是除了因

11、子A的水平的水平外的一切原因引起的,我们将它们归结为随机误外的一切原因引起的,我们将它们归结为随机误差,可以用组内离差平方和表示:差,可以用组内离差平方和表示: rimjiijeyyS112 Se:也称为误差的离差平方和:也称为误差的离差平方和统计学及统计学软件使用教程可以证明有如下平方和分解式:可以证明有如下平方和分解式:eATSSS ST、SA、Se 的自由度分别用的自由度分别用 、 、 表示,它们也有分解式:表示,它们也有分解式: ,其中:,其中:TfAfefeATfff 1 试试验验数数Tf1 水水平平数数AfATefff 因子或误差的离差平方和与相应的自由度因子或误差的离差平方和与相

12、应的自由度之比称为因子或误差的均方和,并分别记为:之比称为因子或误差的均方和,并分别记为:AAAfSMS eeefSMS 两者的比记为:两者的比记为:eAMSMSF 统计学及统计学软件使用教程 当当 时认为在显著性水平时认为在显著性水平 上因上因子子A是显著的。其中是显著的。其中 是自由度为是自由度为 的的F分布的分布的1-分位数。分位数。),(1eAffFF ),(1eAffF eAff ,单因子方差分析表单因子方差分析表 来来源源偏偏差差平平方方和和自自由由度度均均方方和和F比比因因子子A误误差差eSASe1 rfArnfe AAAfSMS eeefSMS eAMSMSF 总总计计TST1

13、 nfT统计学及统计学软件使用教程各个离差平方和的计算:各个离差平方和的计算: nTyyySrimjijrimjijT2112112 r1i22i2ir1iAnTmTyymSATeSSS 其中其中 是第是第i个水平下的数据和;个水平下的数据和;T表示表示所有所有n=rm个数据的总和。个数据的总和。 iT统计学及统计学软件使用教程进行方差分析的步骤如下:进行方差分析的步骤如下: (1)计算因子)计算因子A的每一水平下数据的和的每一水平下数据的和T1,T2,Tr及总和及总和T; (2)计算各类数据的平方和)计算各类数据的平方和 ; 222,TTyiij (3)依次计算)依次计算ST,SA,Se;

14、(4)填写方差分析表;)填写方差分析表; (5)对于给定的显著性水平)对于给定的显著性水平,将求得的,将求得的F值与值与F分布表中的临界值分布表中的临界值 比较,当比较,当 时认为因子时认为因子A是显著的,否则认为是显著的,否则认为因子因子A是不显著的。是不显著的。 eAffF,1 eAffFF,1 统计学及统计学软件使用教程对上例的分析对上例的分析 (1)计算各类和:)计算各类和: 每一水平下的数据和为:每一水平下的数据和为: 344,444,412321 TTT数据的总和为数据的总和为T=1200 (2)计算各类平方和:)计算各类平方和: 原始数据的平方和为:原始数据的平方和为: 1214

15、922ijy每一水平下数据和的平方和为每一水平下数据和的平方和为 4852162 iT统计学及统计学软件使用教程(3)计算各离差平方和:)计算各离差平方和: ST=121492-12002/12=1492, fT=34-1=11SA=485216/4-12002/12=1304, fA=3-1=2Se= 1492-1304=188, fe=11-2=9统计学及统计学软件使用教程(4)列方差分析表:)列方差分析表: 例例2.1-1的方差分析表的方差分析表 来源来源偏差平方和偏差平方和自由度自由度均方和均方和F比比因子因子A1304AS2Af652 AMSF=31.21误差误差e188eS9ef9

16、20.MSe 总计总计T1492TS11Tf统计学及统计学软件使用教程(5) 如果给定如果给定 =0.05,从,从F分布表查得分布表查得 26. 4)9 , 2(95. 0 F 由于由于F4.26,所以在,所以在 =0.05水平上结论是因水平上结论是因子子A是显著的。这表明不同的工厂生产的零件强是显著的。这表明不同的工厂生产的零件强度有明显的差异。度有明显的差异。 当因子当因子A是显著时,我们还可以给出每一水是显著时,我们还可以给出每一水平下指标均值的估计,以便找出最好的水平。在平下指标均值的估计,以便找出最好的水平。在单因子试验的场合,第单因子试验的场合,第i个水平指标均值的估计个水平指标均

17、值的估计为:为: iiy , ri, 2 , 1 统计学及统计学软件使用教程 在本例中,三个工厂生产的零件的平均强度在本例中,三个工厂生产的零件的平均强度的的估计分别为:的的估计分别为: 86,111,103321 由此可见,乙厂生产的零件的强度的均值由此可见,乙厂生产的零件的强度的均值最大,如果我们需要强度大的零件,那么购买最大,如果我们需要强度大的零件,那么购买乙厂的为好;而从工厂来讲,甲厂与丙厂应该乙厂的为好;而从工厂来讲,甲厂与丙厂应该设法提高零件的强度。设法提高零件的强度。 误差方差的估计:这里方差误差方差的估计:这里方差 的估计是的估计是MSe。在本例中:在本例中: 的估计是的估计

18、是20.9。 2 2 的估计是的估计是 57. 49 .20 例例2.1-2 略(见教材略(见教材P92)统计学及统计学软件使用教程三、重复数不等的情况三、重复数不等的情况 若在每一水平下重复试验次数不同,假定若在每一水平下重复试验次数不同,假定在在Ai水平下进行水平下进行 次试验,那么进行方差分次试验,那么进行方差分析的步骤仍然同上,只是在计算中有两个改动:析的步骤仍然同上,只是在计算中有两个改动: im imnnTmTSriiiA212 统计学及统计学软件使用教程 例例2.1-3 某型号化油器原中小喉管的结构使某型号化油器原中小喉管的结构使油耗较大,为节约能源,设想了两种改进方案以油耗较大

19、,为节约能源,设想了两种改进方案以降低油耗。油耗的多少用比油耗进行度量,现在降低油耗。油耗的多少用比油耗进行度量,现在对用各种结构的中小喉管制造的化油器分别测定对用各种结构的中小喉管制造的化油器分别测定其比油耗,数据如表所列,试问中小喉管的结构其比油耗,数据如表所列,试问中小喉管的结构(记为因子(记为因子A)对平均比油油耗的影响是否显著。)对平均比油油耗的影响是否显著。(这里假定每一种结构下的油耗服从等方差的正(这里假定每一种结构下的油耗服从等方差的正态分布)态分布) 统计学及统计学软件使用教程例例2.1-3的试验结果的试验结果 水平水平试验结果(比油耗试验结果(比油耗-220)A1:原结构:

20、原结构11.0 12.8 7.6 8.3 4.7 5.5 9.3 10.3A2:改进方案:改进方案12.8 4.5 -1.5 0.2A3:改进方案:改进方案24.3 6.1 1.4 3.6 (为简化计算,这里一切数据均减去(为简化计算,这里一切数据均减去220,不,不影响影响F比的计算及最后分析因子的显著性)比的计算及最后分析因子的显著性) 统计学及统计学软件使用教程(1)各水平下的重复试验次数及数据和分别为:)各水平下的重复试验次数及数据和分别为: A1:m1=8,T1=69.5A2:m2=4,T2=6.0A3:m3=4,T3=15.4总的试验次数总的试验次数n=16,数据的总和为,数据的总

21、和为T=90.9 统计学及统计学软件使用教程(2)计算各类平方和:)计算各类平方和: 41.7572 ijy07.6722 iimT43.5162 nT(3)计算各离差平方和:)计算各离差平方和: ST=757.41-516.43=240.98, fT=16-1=15SA=672.07-516.43=155.64, fA=3-1=2Se= 240.98-155.64=85.34, fe=15-2=13统计学及统计学软件使用教程(4)列方差分析表:)列方差分析表: 例例2.1-3方差分析表方差分析表 来源来源偏差平方和偏差平方和自由度自由度均方和均方和F 比比因子因子 A64.155 AS2 A

22、f8277.MSA 86.11 F误差误差 e34.85 eS13 ef566.MSe 总计总计 T98.240 TS15 Tf统计学及统计学软件使用教程(5) 如果给定如果给定 =0.05,从,从F分布表查得分布表查得 81. 3)13, 2(95. 0 F 由于由于F3.81,所以在,所以在=0.05水平上我们水平上我们的结论是因子的结论是因子A是显著的。这表明不同的中小是显著的。这表明不同的中小喉管结构生产的化油器的平均比油耗有明显喉管结构生产的化油器的平均比油耗有明显的差异。的差异。 统计学及统计学软件使用教程 我们还可以给出不同结构生产的化油器的平我们还可以给出不同结构生产的化油器的

23、平均比油耗的估计:均比油耗的估计: 69.22822069. 81 50.22122050. 12 85.22322085. 33 这里加上这里加上220是因为在原数据中减去了是因为在原数据中减去了220的缘故。的缘故。 由此可见,从比油耗的角度看,两种改进由此可见,从比油耗的角度看,两种改进结构都比原来的好,特别是改进结构结构都比原来的好,特别是改进结构1。 在本例中误差方差的估计为在本例中误差方差的估计为6.56,标准差,标准差的估计为的估计为2.56。 统计学及统计学软件使用教程第二节第二节 回归分析回归分析 例例2.2-1 合金的强度合金的强度y与合金中的碳含量与合金中的碳含量x有有关

24、。为了生产出强度满足顾客需要的合金,在冶关。为了生产出强度满足顾客需要的合金,在冶炼时应该如何控制碳含量?如果在冶炼过程中通炼时应该如何控制碳含量?如果在冶炼过程中通过化验得到了碳含量,能否预测合金的强度?过化验得到了碳含量,能否预测合金的强度? 这时需要研究两个变量间的关系。首先是收这时需要研究两个变量间的关系。首先是收集数据集数据(xi,yi),i=1,2, ,n。现从生产中收集到表。现从生产中收集到表2.2-1所示的数据。所示的数据。 统计学及统计学软件使用教程表表2.2-1 数据表数据表 序号序号xy10.1042.020.1143.530.1245.040.1345.550.1445

25、.060.1547.570.1649.080.1753.090.1850.0100.2055.0110.2155.0120.2360.0统计学及统计学软件使用教程一、散布图一、散布图 6050400.150.200.10 xy例例2.2-1的散布图的散布图 统计学及统计学软件使用教程二、相关系数二、相关系数 1相关系数的定义相关系数的定义 在散布图上在散布图上 n 个点在一条直线附近,但又个点在一条直线附近,但又不全在一条直线上,称为两个变量有线性相关不全在一条直线上,称为两个变量有线性相关关系,可以用相关系数关系,可以用相关系数 r 去描述它们线性关系去描述它们线性关系的密切程度的密切程度

26、yyxxxyLLLr 统计学及统计学软件使用教程其中其中 nTTyxyyxxLyxiiiixy)( nTxxxLxiixx222 nTyyyLyiiyy222 iyixyTxT,统计学及统计学软件使用教程性质:性质: 1 r 表示表示n个点在一条直线上,这时两个个点在一条直线上,这时两个变量间完全线性相关。变量间完全线性相关。 1r r0表示当表示当x增加时增加时y也增大,称为正相关也增大,称为正相关 r0.576,说明两个变量间有(正)线性相关关系。说明两个变量间有(正)线性相关关系。 576. 0)10(975. 0 r统计学及统计学软件使用教程四、一元线性回归方程四、一元线性回归方程 1

27、. 一元线性回归方程的求法:一元线性回归方程的求法: 一元线性回归方程的表达式为一元线性回归方程的表达式为 bxay 其中其中a与与b使下列离差平方和达到最小:使下列离差平方和达到最小: 2)(),(iibxaybaQ通过微分学原理,可知通过微分学原理,可知 xxxyLLb , xbya 称这种估计为最小二乘估计。称这种估计为最小二乘估计。 b 称为回归系数;称为回归系数;a一般称为常数项。一般称为常数项。 统计学及统计学软件使用教程 求一元线性回归方程的步骤如下:求一元线性回归方程的步骤如下: (1)计算变量)计算变量x与与y的数据和的数据和Tx,Ty;(2)计算各变量的平方和与乘积和;)计

28、算各变量的平方和与乘积和;(3)计算)计算Lxx,Lxy;(4)求出)求出b与与a;统计学及统计学软件使用教程利用前面的数据,可得:利用前面的数据,可得: b=2.4392/0.0186=130.6022 a=590.5/12-130.6022 1.90/12=28.5297 (5)写出回归方程:)写出回归方程: xy6022.1305340.28 画出的回归直线一定通过(画出的回归直线一定通过(0,a)与)与 两点两点 ),(yx上例:上例: bxay 或或 xxbyy 统计学及统计学软件使用教程2. 回归方程的显著性检验回归方程的显著性检验 有两种方法:有两种方法: 一是用上述的相关系数;

29、一是用上述的相关系数; 二是用方差分析方法(为便于推广到多元二是用方差分析方法(为便于推广到多元线性回归的场合),将总的离差平方和分解成线性回归的场合),将总的离差平方和分解成两个部分:回归平方和与离差平方和。两个部分:回归平方和与离差平方和。 统计学及统计学软件使用教程总的离差平方和:总的离差平方和: 2yySiT回归平方和:回归平方和: xyiRbLyyS 2离差平方和:离差平方和: RTiiESSyyS 2且有且有ST=SR+SE,其中,其中 iibxay 它们的自由度分别为:它们的自由度分别为: fT=n-1,fR=1,fE=n-2=fT-fR 统计学及统计学软件使用教程计算计算F比,

30、比, EERRfSfSF/ 对给定的显著性水平对给定的显著性水平 ,当,当 时认为回归方程是显著的,即回归方程是有意时认为回归方程是显著的,即回归方程是有意义的。一般也列成方差分析表。义的。一般也列成方差分析表。 )2, 1(1 nFF 统计学及统计学软件使用教程对上面的例子,作方差分析的步骤如下:对上面的例子,作方差分析的步骤如下: 根据前面的计算根据前面的计算 (1)计算各类平方和:)计算各类平方和: ST=Lyy=335.2292, fT=12-1=11SR=bLxy=130.60222.4292=317.2589,fR=1SE=335.2292-317.2589=17.9703, fE

31、=11-1=10 统计学及统计学软件使用教程(2)列方差分析表:)列方差分析表: 例例2.2-1的方差分析表的方差分析表 来源来源 偏差平方和偏差平方和自由度自由度均方和均方和F比比回归回归317.25891317.2589 176.55残差残差17.9703101.7970T335.229211统计学及统计学软件使用教程对给定的显著性水平对给定的显著性水平 =0.05,有,有 F0.95(1,10)=4.96 由于由于F4.96,所以在,所以在0.05水平上认为回归水平上认为回归方程是显著的(有意义的)。方程是显著的(有意义的)。 统计学及统计学软件使用教程3利用回归方程进行预测利用回归方程

32、进行预测 对给定的对给定的 ,y的预测值为的预测值为 0 xx 00bxay 1概率为概率为 的的y的预测区间是的预测区间是 ),(00 yy其中其中 xxLxxnnt2021112 EEfS 当当n较大,较大, 与与 相差不大,那么可给出相差不大,那么可给出近似的预测区间,此时近似的预测区间,此时 0 xx21 u统计学及统计学软件使用教程进行预测的步骤如下:进行预测的步骤如下: (1)对给出的)对给出的x0求预测值求预测值 上例,设上例,设x0 =0.16,则,则 43.4916. 06022.1305364.280 y(2)求)求 的估计的估计 上例有上例有 34. 1109703.17

33、 统计学及统计学软件使用教程(3)求)求 上例上例n=12,如果求概率为,如果求概率为95%的预测区的预测区间,那么间,那么t0.975(10)=2.228,所以,所以 11. 30186. 0)1583. 016. 0(1211228. 234. 12 (4)写出预测区间)写出预测区间 ),(00 yy上例为上例为(49.43-3.11,49.43+3.11)=(46.32,52.54) 统计学及统计学软件使用教程 由于由于u0.975=1.96,故概率为,故概率为0.95的近似的预测的近似的预测区间为:区间为:63. 234. 196. 1 所求区间:所求区间:(49.43-2.63,49

34、.43+2.63)=(46.80,52.06) 相差较大的原因总相差较大的原因总n较小。较小。统计学及统计学软件使用教程四、可化为一元线性回归的曲线回归四、可化为一元线性回归的曲线回归 在两个重复的散布图上,在两个重复的散布图上,n个点的散布不一个点的散布不一定都在一条直线附近波动,有时可能在某条曲线定都在一条直线附近波动,有时可能在某条曲线附近波动,这时以建立曲线回方程为好。附近波动,这时以建立曲线回方程为好。 1. 确定曲线回归方程形式确定曲线回归方程形式 2. 曲线回归方程中参数的估计曲线回归方程中参数的估计 通过适当的变换,化为一元线性回归的形通过适当的变换,化为一元线性回归的形式,再

35、利用一元线性回归中的最小二乘估计方式,再利用一元线性回归中的最小二乘估计方法获得。法获得。 统计学及统计学软件使用教程回归曲线的形式:回归曲线的形式:(1) ,(,(a0,b0) xbay11 (2) ,(,(b0) )lg(xbay (3) ,(,(b0) xbay (4) ,(,(b0) xbay/exp100 统计学及统计学软件使用教程3. 曲线回归方程的比较曲线回归方程的比较 常用的比较准则:常用的比较准则: (1)要求相关指数)要求相关指数R大,其平方也称为决大,其平方也称为决定系数,它被定义为:定系数,它被定义为: 222)(1yyyyRiii(2)要求剩余标准差)要求剩余标准差s

36、小,它被定义为:小,它被定义为: 2n)y y(s2ii 统计学及统计学软件使用教程第三节第三节 正交设计正交设计 一、试验设计的基本概念与正交表一、试验设计的基本概念与正交表 (一)试验设计(一)试验设计 多因素试验遇到的最大困难是试验次数太多,多因素试验遇到的最大困难是试验次数太多,若十个因素对产品质量有影响,每个因素取两个若十个因素对产品质量有影响,每个因素取两个不同状态进行比较,有不同状态进行比较,有210=1024、如果每个因素、如果每个因素取三个不同状态取三个不同状态310=59049个不同的试验条件个不同的试验条件 统计学及统计学软件使用教程 选择部分条件进行试验,再通过数据分析

37、选择部分条件进行试验,再通过数据分析来寻找好的条件,这便是试验设计问题。通过少来寻找好的条件,这便是试验设计问题。通过少量的试验获得较多的信息,达到试验的目的。量的试验获得较多的信息,达到试验的目的。 利用正交表进行试验设计的方法就是正交利用正交表进行试验设计的方法就是正交试验设计。试验设计。 统计学及统计学软件使用教程(二)正交表(二)正交表 493L试验号列号试验号列号1 12 23 34 41 11 11 11 11 12 21 12 22 22 23 31 13 33 33 34 42 21 12 23 35 52 22 23 31 16 62 23 31 12 27 73 31 13

38、 32 28 83 32 21 13 39 93 33 32 21 1统计学及统计学软件使用教程 “L”表示正交表,表示正交表,“9”是表的行数,在试验是表的行数,在试验中表示试验的条件数,中表示试验的条件数,“4”是列数,在试验中是列数,在试验中表示可以安排的因子的最多个数,表示可以安排的因子的最多个数,“3”是表的是表的主体只有三个不同数字,在试验中表示每一因主体只有三个不同数字,在试验中表示每一因子可以取的水平数。子可以取的水平数。 统计学及统计学软件使用教程正交表具有正交性,这是指它有如下两个特点:正交表具有正交性,这是指它有如下两个特点: (1)每列中每个数字重复次数相同。)每列中每

39、个数字重复次数相同。 在表在表L9(34)中,每列有中,每列有3个不同数字:个不同数字:1,2,3,每一个出现每一个出现3次。次。 (2)将任意两列的同行数字看成一个数对,那)将任意两列的同行数字看成一个数对,那 么一切可能数对重复次数相同。么一切可能数对重复次数相同。 在表在表L9(34)中,任意两列有中,任意两列有9种可能的数对:种可能的数对: (1,1),(1,2),(1,3),(2,1),(2,2),(2,3),(3,1),(3,2),(3,3)每一对出现一次。每一对出现一次。 统计学及统计学软件使用教程常用的正交表有两大类常用的正交表有两大类 (1) 一类正交表的行数一类正交表的行数

40、n,列数,列数p,水平数,水平数q 间有如下关系:间有如下关系: n=qk, k=2,3,4, p=(n-1)/(q-1) 如:如:L4(23),L8(27),L16(215),L32(231)等,等,可以考察因子间的交互作用。可以考察因子间的交互作用。 (2)另一类正交表的行数,列数,水平数之间)另一类正交表的行数,列数,水平数之间 不满足上述的两个关系不满足上述的两个关系 如:如: L12(211),L18(37),L20(219),L36(313)等等 这类正交表不能用来考察因子间的交互作用这类正交表不能用来考察因子间的交互作用 常用正交表见附录常用正交表见附录统计学及统计学软件使用教程

41、二、无交互作用的正交设计与数据分析二、无交互作用的正交设计与数据分析 试验设计一般有四个步骤:试验设计一般有四个步骤: 1. 试验设计试验设计 2. 进行试验获得试验结果进行试验获得试验结果 3. 数据分析数据分析 4. 验证试验验证试验统计学及统计学软件使用教程 例例2.3-1 磁鼓电机是彩色录像机磁鼓组件磁鼓电机是彩色录像机磁鼓组件的关键部件之一,按质量要求其输出力矩应大的关键部件之一,按质量要求其输出力矩应大于于210g.cm。某生产厂过去这项指标的合格率。某生产厂过去这项指标的合格率较低,从而希望通过试验找出好的条件,以提较低,从而希望通过试验找出好的条件,以提高磁鼓电机的输出力矩。高

42、磁鼓电机的输出力矩。 统计学及统计学软件使用教程(一)试验的设计(一)试验的设计 在安排试验时,一般应考虑如下几步:在安排试验时,一般应考虑如下几步: (1)明确试验目的)明确试验目的 (2)明确试验指标)明确试验指标 (3)确定因子与水平)确定因子与水平 (4)选用合适的正交表)选用合适的正交表,进行表头设计,进行表头设计,列出试验计划列出试验计划 统计学及统计学软件使用教程在本例中:在本例中: 试验目的:提高磁鼓电机的输出力矩试验目的:提高磁鼓电机的输出力矩 试验指标:输出力矩试验指标:输出力矩 确定因子与水平:经分析影响输出力矩的可能因确定因子与水平:经分析影响输出力矩的可能因 子及水平

43、见表子及水平见表2.3-2 表表2.3-2 因子水平表因子水平表 因因子子水水平平一一二二三三A A:充充磁磁量量(1 10 0- -4 4特特)9 90 00 01 11 10 00 01 13 30 00 0B B:定定位位角角度度(度度)1 10 01 11 11 12 2C C:定定子子线线圈圈匝匝数数(匝匝)7 70 08 80 09 90 0统计学及统计学软件使用教程选表:首先根据因子的水平数,找出一类正交表选表:首先根据因子的水平数,找出一类正交表 再根据因子的个数确定具体的表再根据因子的个数确定具体的表 把因子放到表的列上去,称为表头设计把把因子放到表的列上去,称为表头设计把放

44、因子的列中的数字改为因子的真实水平,便成放因子的列中的数字改为因子的真实水平,便成为一张试验计划表,每一行便是一个试验条件。为一张试验计划表,每一行便是一个试验条件。在正交设计中在正交设计中n个试验条件是一起给出的的,称为个试验条件是一起给出的的,称为“整体设计整体设计”,并且均匀分布在试验空间中。,并且均匀分布在试验空间中。表头设计表头设计 A B C列号列号 1 2 3 4统计学及统计学软件使用教程试验计划与试验结果试验计划与试验结果 因子因子试验号试验号充磁量充磁量 定位角度定位角度 定子线圈匝数定子线圈匝数T410 rad)180( 匝匝试验结果试验结果 y y输出力矩输出力矩(g.c

45、mg.cm)1 1(1)(1)900900(1)(1)1010(1)(1)70701601602 2(1)(1)900900(2)(2)1111(2)(2)80802152153 3(1)(1)900900(3)(3)1212(3)(3)90901801804 4(2)(2)11001100(1)(1)1010(2)(2)80801681685 5(2)(2)11001100(2)(2)1111(3)(3)90902362366 6(2)(2)11001100(3)(3)1212(1)(1)70701901907 7(3)(3)13001300(1)(1)1010(3)(3)909015715

46、78 8(3)(3)13001300(2)(2)1111(1)(1)70702052059 9(3)(3)13001300(3)(3)1212(2)(2)8080140140统计学及统计学软件使用教程9个试验点的分布个试验点的分布 3C3C2C1A115798642A2A3B1B2B3统计学及统计学软件使用教程(二)进行试验,并记录试验结果(二)进行试验,并记录试验结果 在进行试验时,要注意几点:在进行试验时,要注意几点: 1. 除了所考察的因子外的其它条件,尽除了所考察的因子外的其它条件,尽可能保持相同可能保持相同 2. 试验次序最好要随机化试验次序最好要随机化 3. 必要时可以设置区组因子

47、必要时可以设置区组因子 统计学及统计学软件使用教程(三)数据分析(三)数据分析 1. 数据的直观分析数据的直观分析 (1)寻找最好的试验条件)寻找最好的试验条件 在在A1水平下进行了三次试验:水平下进行了三次试验:#1,#2,#3,而在这三次试验中因子而在这三次试验中因子B的三个水平各进行了一的三个水平各进行了一次试验,因子次试验,因子C的三个水平也各进行了一次试验。的三个水平也各进行了一次试验。 在在A2水平下进行了三次试验:水平下进行了三次试验:#4,#5,#6,在这三次试验中因子在这三次试验中因子B与与C的三个水平各进行了一的三个水平各进行了一次试验。次试验。 在在A3水平下进行了三次试

48、验:水平下进行了三次试验:#7,#8,#9,在这三次试验中因子在这三次试验中因子B与与C的三个水平各进行了一的三个水平各进行了一次试验。次试验。 统计学及统计学软件使用教程 将全部试验分成三个组,那么这三组数据间将全部试验分成三个组,那么这三组数据间的差异就反映了因子的差异就反映了因子A的三个水平的差异,为此的三个水平的差异,为此计算各组数据的和与平均:计算各组数据的和与平均: T1=y1+y2+y3=160+215+180=555 =T1/3=185 1T T2=y4+y5+y6=168+236+190=594 =T2/3=198 2T T3=y7+y8+y9=157+205+140=502

49、 =T3/3=167.3 3T同理同理 对因子对因子B与与C将数据分成三组分别比较将数据分成三组分别比较 统计学及统计学软件使用教程所有计算列在下面的计算表中所有计算列在下面的计算表中 例例2.3-1直观分析计算表直观分析计算表 表头设计表头设计A AB BC C试验号试验号列号列号1 12 23 34 4y y1 11 11 11 11 11601602 21 12 22 22 22152153 31 13 33 33 31801804 42 21 12 23 31681685 52 22 23 31 12362366 62 23 31 12 21901907 73 31 13 32 215

50、71578 83 32 21 13 32052059 93 33 32 21 1140140T T1 1555555485485555555T T2 2594594656656523523T T3 35025025105105735731T185185161.7161.71851852T198198218.7218.7174.3174.33T167.3167.3170170191191R R30.730.7575716.716.7统计学及统计学软件使用教程 (2)各因子对指标影响程度大小的分析)各因子对指标影响程度大小的分析 极差的大小反映了因子水平改变时对试验结极差的大小反映了因子水平改变时

51、对试验结果的影响大小。这里因子的极差是指各水平平均果的影响大小。这里因子的极差是指各水平平均值的最大值与最小值之差,譬如对因子值的最大值与最小值之差,譬如对因子A来讲:来讲: RA=198167.3=30.7 其它的结果也列在上表中。从三个因子的极差其它的结果也列在上表中。从三个因子的极差可知因子可知因子B的影响最大,其次是因子的影响最大,其次是因子A,而因子,而因子C的影响最小。的影响最小。 统计学及统计学软件使用教程(3)各因子不同水平对指标的影响图)各因子不同水平对指标的影响图 从图上可以明显地看出每一因子的最好水从图上可以明显地看出每一因子的最好水平平A2,B2,C3,也可以看出每个因

52、子对指标影,也可以看出每个因子对指标影响的大小响的大小RBRARC。 CBA220205190175160900 1100 1300 10 11 12 70 80 90 RARBRC图图2.3-2 因子各水平对输出力矩的影响因子各水平对输出力矩的影响 统计学及统计学软件使用教程 由于正交表的特点,使试验条件均匀分布在由于正交表的特点,使试验条件均匀分布在试验空间中,因此使数据间具有整齐可比性,上试验空间中,因此使数据间具有整齐可比性,上述的直观分析可以进行。但是极差大到什么程度述的直观分析可以进行。但是极差大到什么程度可以认为水平的差异确实是有影响的呢?可以认为水平的差异确实是有影响的呢? 2

53、. 数据的方差分析数据的方差分析 要把引起数据波动的原因进行分解,数据的要把引起数据波动的原因进行分解,数据的波动可以用离差平方和来表示。波动可以用离差平方和来表示。 统计学及统计学软件使用教程正交表中第正交表中第j列的离差平方和的计算公式:列的离差平方和的计算公式: nTqnTSiijj22 其中其中Tij为第为第j列第列第i水平的数据和,水平的数据和,T为数据为数据总和,总和,n为正交表的行数,为正交表的行数,q为该列的水平数为该列的水平数 该列表头是哪个因子,则该该列表头是哪个因子,则该Sj即为该因子的即为该因子的离差平方和,譬如离差平方和,譬如SA=S1 正交表总的离差平方和为:正交表

54、总的离差平方和为: nTyyySiiiiT222)( 在这里有在这里有: jjTSS统计学及统计学软件使用教程 例例2.3-12.3-1的方差分析计算表的方差分析计算表表头设计表头设计A AB BC C列号列号试验号试验号1 12 23 34 4Y Y1 11 11 11 11 11601602 21 12 22 22 22152153 31 13 33 33 31801804 42 21 12 23 31681685 52 22 23 31 12362366 62 23 31 12 21901907 73 31 13 32 21571578 83 32 21 13 32052059 93 3

55、3 32 21 1140140T T1 1555555485485555555536536T=1651T=1651T T2 2594594656656523523562562=310519=310519T T3 3502502510510573573553553T T1421.61421.65686.95686.9427.6427.6116.2116.2S ST T=7652.2=7652.2统计学及统计学软件使用教程 第第4列上没有放因子,称为空白列。列上没有放因子,称为空白列。S4仅仅反映由误差造成的数据波动,称为误差平方和。反映由误差造成的数据波动,称为误差平方和。 Se=S4 利用利用

56、 可以验证平方和的计算是可以验证平方和的计算是否正确。否正确。 jjTSS统计学及统计学软件使用教程 例例2.3-12.3-1的方差分析表的方差分析表来来源源平平方方和和 S S自自由由度度 f f均均方方和和 V VF F 比比因因子子 A A1 14 42 21 1. .6 62 27 71 10 0. .8 81 12 2. .2 23 3因因子子 B B5 56 68 86 6. .9 92 22 28 84 43 3. .4 44 48 8. .9 94 4因因子子 C C4 42 27 7. .6 62 22 21 13 3. .8 83 3. .6 68 8误误差差 e e1 1

57、1 16 6. .2 22 25 58 8. .1 1T T7 76 65 52 2. .2 28 80 .19)2 , 2(, 0 , 9)2 , 2(95. 090. 0FF 因子因子A与与B在显著性在显著性0.10与与0.05上都是显著的,上都是显著的,而因子而因子C不显著。不显著。统计学及统计学软件使用教程3. 最佳条件的选择最佳条件的选择对显著因子应该取最好的水平;对显著因子应该取最好的水平; 对不显著因子的水平可以任意选取,在实际对不显著因子的水平可以任意选取,在实际中通常从降低成本、操作方便等角度加以选择。中通常从降低成本、操作方便等角度加以选择。 上面的例子中对因子上面的例子中

58、对因子A与与B应该选择应该选择A2B2,因,因子子C可以任选,譬如为节约材料可选择可以任选,譬如为节约材料可选择C1。统计学及统计学软件使用教程4. 贡献率分析方法贡献率分析方法 当试验指标不服从正态分布时当试验指标不服从正态分布时,进行方差分进行方差分析的依据就不够充足析的依据就不够充足,此时可通过比较各因子的此时可通过比较各因子的“贡献率贡献率”来衡量因子作用的大小。由于来衡量因子作用的大小。由于S因因中中除因子的效应外,还包含误差,从而称除因子的效应外,还包含误差,从而称S因因-f因因Ve为因子的纯离差平方和,将因子的纯离差平方和为因子的纯离差平方和,将因子的纯离差平方和与与ST的比称为

59、因子的贡献率。的比称为因子的贡献率。(四)验证试验(四)验证试验 对对A2B2C1进行三次试验,结果为:进行三次试验,结果为:234,240,220,平均值为,平均值为231.3此结果是满意的此结果是满意的统计学及统计学软件使用教程三、有交互作用的正交设计与数据分析三、有交互作用的正交设计与数据分析 例例2.3-2 为提高某种农药的收率,需要进为提高某种农药的收率,需要进行试验。行试验。(一)试验的设计(一)试验的设计 明确试验目的明确试验目的 明确试验指标明确试验指标 确定试验中所考虑的因子与水平,并确定试验中所考虑的因子与水平,并确定可能存在并要考察的交互作用确定可能存在并要考察的交互作用

60、 选用合适的正交表。选用合适的正交表。统计学及统计学软件使用教程在本例中:在本例中:试验目的:提高农药的收率试验目的:提高农药的收率试验指标:收率试验指标:收率确定因子与水平以及所要考察的交互作用:确定因子与水平以及所要考察的交互作用:因子水平表因子水平表因因子子一一水水平平二二水水平平A A: :反反应应温温度度()6 60 08 80 0B B: :反反应应时时间间( (小小时时) )2 2. .5 53 3. .5 5C C: :两两种种原原料料配配比比1 1. .1 1/ /1 11 1. .2 2/ /1 1D D: :真真空空度度( (k kP Pa a) )5 50 06 60

61、0还要考察因子还要考察因子A与与B交互作用交互作用统计学及统计学软件使用教程 选表:首先根据因子的水平数,找出一选表:首先根据因子的水平数,找出一类正交表再根据因子的个数及交互作用个数类正交表再根据因子的个数及交互作用个数确定具体的表。确定具体的表。 把因子放到表的列上去,但是要先放有把因子放到表的列上去,但是要先放有交互作用的两个因子,并利用交互作用表,交互作用的两个因子,并利用交互作用表,标出交互作用所在列,以便于今后的数据分标出交互作用所在列,以便于今后的数据分析。析。 把放因子的列中的数字改为因子的真实把放因子的列中的数字改为因子的真实水平,便成为一张试验计划表。水平,便成为一张试验计

62、划表。统计学及统计学软件使用教程L8(27)的交互作用表)的交互作用表列 号1234567(1)325476(2)16745(3)7654(4)123(5)32(6)1表头设计ABABCD列号1234567统计学及统计学软件使用教程试验计划试验计划试验号反应温度()反应时间(小时)两种原料配比真空度(kPa)收率 y1602.51.1/150862602.51.2/160953603.51.1/160914603.51.2/150945802.51.1/160916802.51.2/150967803.51.1/150838803.51.2/16088统计学及统计学软件使用教程(二)数据分析(

63、二)数据分析1. 数据的方差分析数据的方差分析 在二水平正交表中一列的离差平方和在二水平正交表中一列的离差平方和有一个简单的计算公式:有一个简单的计算公式: nTTSjjj221 其中其中T1j、T2j分别是第分别是第j列一水平与二水列一水平与二水平数据的和,平数据的和,n是正交表的行数是正交表的行数统计学及统计学软件使用教程例例2.3-2的计算表的计算表表头设计表头设计A AB BA AB BC CD D试验号试验号 列号列号1 12 23 34 45 56 67 7Y Y1 11 11 11 11 11 11 11 186862 21 11 11 12 22 22 22 295953 31

64、 12 22 21 11 12 22 291914 41 12 22 22 22 21 11 194945 52 21 12 21 12 21 12 291916 62 21 12 22 21 12 21 196967 72 22 21 11 12 22 21 183838 82 22 21 12 21 11 12 28888T T1 1366366368368352352351351361361359359359359T=724T=724T T2 2358358356356372372373373363363365365365365=65668=65668S S8 81818505060.5

65、60.50.50.54.54.54.54.5S ST T=146=146统计学及统计学软件使用教程例例2.3-2的方差分析表的方差分析表来源来源S Sf fV VF F比比A A8.08.01 18.08.03.23.2B B18.018.01 118.018.07.27.2C C60.560.51 160.560.524.224.2D D4.54.51 14.54.51.81.8A AB B50.050.01 150.050.020.020.0e e5.05.02 22.52.5T T146.0146.07 751821950.),(F. 统计学及统计学软件使用教程其中:其中:SA=S1,S

66、B=S2,SC=S4,SD=S7SAB=S3,Se=S5+S6fA=fB=fC=fD=fAB=1,fe=2统计学及统计学软件使用教程AB的搭配表的搭配表 A A1 1 A A2 2 B B1 1 (86+95)/2=90.5(86+95)/2=90.5 (91+96)/2=93.5(91+96)/2=93.5 B B2 2 (91+94)/2=92.5(91+94)/2=92.5 (83+88)/2=85.5(83+88)/2=85.5 2. 最佳条件的选择最佳条件的选择故最佳条件是:故最佳条件是:A2B1C2A2B1的搭配为好,的搭配为好,C取取2水平为好。水平为好。统计学及统计学软件使用教程(三)避免混杂现象(三)避免混杂现象表头设计的一个原则表头设计的一个原则 选择正交表时必须满足下面一个条件:选择正交表时必须满足下面一个条件:“所考察的因子与交互作用自由度之和所考察的因子与交互作用自由度之和n1”,其中其中n是正交表的行数。不过在存在交互作用的是正交表的行数。不过在存在交互作用的场合,这一条件满足时还不一定能用来安排试场合,这一条件满足时还不一定能用来安排试验,所以这是一个必要

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!