方差分析及回归分析课件

上传人:阳*** 文档编号:119597795 上传时间:2022-07-15 格式:PPT 页数:97 大小:1.97MB
收藏 版权申诉 举报 下载
方差分析及回归分析课件_第1页
第1页 / 共97页
方差分析及回归分析课件_第2页
第2页 / 共97页
方差分析及回归分析课件_第3页
第3页 / 共97页
资源描述:

《方差分析及回归分析课件》由会员分享,可在线阅读,更多相关《方差分析及回归分析课件(97页珍藏版)》请在装配图网上搜索。

1、方差分析及回归分析优秀课件1第九章 方差分析及回归分析单因素试验 一元线性回归 多元线性回归方差分析及回归分析优秀课件2方差分析的提出 012112022 :,:,=ssHHHHt 12111222 假设检验中,若需检验:=,,则可用 检验(未知),但如果有两个以上的总体需要检验,如:则就无能为力了,此时就需要用:,,不方差全相等分析了。123这是普遍存在的问题,因为影响一事物的因素往往很多的,如农业生产中,影响水稻产量的因素可能有:种子、肥料、气象、耕作等;同一种因素下也会有不同的水平状态,如施肥数量是 个单位、单位还是 单位?等等。有些因素影响较大,而有的则较小,方差分析可以找出那些较显著

2、影响产量的因素。方差分析及回归分析优秀课件3方差分析的概念 试验指标:在试验中要考察的指标试验指标:在试验中要考察的指标因素:影响试验指标的条件。包括可控因素和不可控因素因素:影响试验指标的条件。包括可控因素和不可控因素单因素试验:在一项试验中只有一个因素在改变的试验单因素试验:在一项试验中只有一个因素在改变的试验多因素试验:在一项试验中多于一个因素在改变的试验多因素试验:在一项试验中多于一个因素在改变的试验水平:因素所处的状态水平:因素所处的状态方差分析及回归分析优秀课件4方差分析及回归分析优秀课件5方差分析及回归分析优秀课件6方差分析及回归分析优秀课件7方差分析及回归分析优秀课件8方差分析

3、及回归分析优秀课件9方差分析及回归分析优秀课件101单因素试验的方差分析 在一项试验中只有一个因素在改变的试验。如只考在一项试验中只有一个因素在改变的试验。如只考虑氮肥的不同施用量对水稻产量的影响,而不考虑其他虑氮肥的不同施用量对水稻产量的影响,而不考虑其他原因对产量的影响。得到如下数据:原因对产量的影响。得到如下数据:(一)单因素试验1212111212122212ssssnnn sAAAXXXXXXXXX观察结果处理水平试验指标 jijAsjXji其中:为个不同施肥量中第个施肥量,为第种施肥量下的第个试验小区产量方差分析及回归分析优秀课件11一般地,对一个单因素试验,假设因素有一般地,对一

4、个单因素试验,假设因素有s(s2)个水平,个水平,n个对象参与了试验。假定对应于因素个对象参与了试验。假定对应于因素第第j个水平的组中有个水平的组中有 个试验对象,相应变量数个试验对象,相应变量数据为据为jn1212,1,2,jjjn jsXXXjs n nnn,;2(0,),1,2,1,2,ijjijijijjXNinjs各独立,122221122111212122212:,:,:,sssssnnn sA NANA NXXXXXXXXX 通常假定通常假定2(,)ijjXN 即方差分析及回归分析优秀课件12方差分析的三个基本条件方差分析的三个基本条件 独立性独立性.数据是来自数据是来自s s个

5、独立总体的简单随机样本个独立总体的简单随机样本 正态性正态性.s s个独立总体均为正态总体个独立总体均为正态总体 方差齐性方差齐性.s s个独立总体的方差都相同个独立总体的方差都相同方差分析及回归分析优秀课件131212111212122212ssssnnn sAAAXXXXXXXXX观察结果处理水平试验指标121212 sssTTTXXX样本总和样本均值总体均值 记号说明11111jnssijjjjijXXn Xnn样本总均值:方差分析及回归分析优秀课件14012112:.:,.,ssHH 不全相等。检验假设111 ssjjjjjnnnn记总平均,其中,1,2,.,jjjAjs水平 的效应1

6、 122.0ssnnn此时有21 122(0,),1,2,1,2,.0ijjijijijjssXinjsnnn 模型为:各独立,假设等价于012112:0:,ssHH 不全为零。方差分析及回归分析优秀课件15211jnsTijjiSXX定义:总偏差平方和22211ssAjjjjjjSnXXn XnX效应平方和22111(1)jnssEijjjjjijSXXnS误差平方和11111jnssijjjjijXXn Xnn样本总均值:11,1,2,jnjijijXXjsn(二)平方和分解方差分析及回归分析优秀课件161TEASSS性质:221111jjnnssTijijjjjijiSXXXXXX证明:

7、221111112jjjnnnsssijjjijjjjijijiXXXXXXXXEASS11110jjnnssijjjjijjjijiXXXXXXXX0.sAEHScS12从而,检验:的拒绝域的形式为:方差分析及回归分析优秀课件1722121sTjjjE Snn性质:2211sAjjjE Sns2EE Sns2221111jjnnssTijijjijiE SEXXEXnX证明:221()()1sATEjjjE SE SSns2211()()jnsijjiE XnE X1111()()1()jnsijjisjjjE XE Xnnn22222112ssjjjjjjnnnnn211()jnsEijj

8、jiE SEXX221(1)()sjjnns222211()jnsjjinn2211sjjjnn方差分析及回归分析优秀课件18211jnsEijjjiSXX(2)证明:222122(1)=(1),1,.,.jnijjjjijXXnSnjs22221(1)sEjjSnns由分布可加性,即。211,.,jnijijjiXXXjs由于各相互独立,所以,相互独立,223(1)(2)()AEESSSns性质与相互独立;202(3)(1)ASHs当为真时,。0(1)4=(1,).()AAEESsSHFF snsSnsS()当为真时,方差分析及回归分析优秀课件19211jnsAjjiSXX(3)21sjjj

9、nXX221/sjAjjXXSn2(,)jjjXNn120,sHXXXs当为真时,可以把看成来自同一总体的一个容量为 的样本,且有12121()()0sjjnsjnXXTTTnnn X)02221(1)/sHjAjjXXSsn223(1)(2)()AEESSSns性质与相互独立;202(3)(1)ASHs当为真时,。0(1)4=(1,).()AAEESsSHFF snsSnsS()当为真时,方差分析及回归分析优秀课件20 0.TAEAESSSSSH经简单的分析,已知总的数据变异是由因素效应及随机误差引起的,即,若因素效应明显大于随机误差,就说明效应是显著的,即应拒绝012112012112:0

10、,:,:0,:,ssssHHHH 不全相等或,不全为零。(1)(1,)()AESsFF snsSns比AS1AASSsAESSESEESSnsTS方差来源方差来源平方和平方和自由度自由度均方均方F比比因素因素As-1误差误差n-s总和总和n-1单因素试验方差分析表单因素试验方差分析表00/,3AEHSScH所以的拒绝域形式为:而由性质,则的检验统计量及 水平的拒绝域为:方差分析及回归分析优秀课件21,TAESSS计算的简便公式:111,1,2,jjnnsjijijijiTXjsTX记22221111jjnnssTijijjijiTSXnXXn222211ssjAjjjjjTTSn XnXnnE

11、TASSS方差分析及回归分析优秀课件22例例1:设有设有5种治疗荨麻疹的药,要比较它们的疗种治疗荨麻疹的药,要比较它们的疗效。假设将效。假设将30个病人分成个病人分成5组,每组组,每组6人,令同组人,令同组病人使用一种药,并记录病人从使用药物开始到病人使用一种药,并记录病人从使用药物开始到痊愈所需时间,得到下面的记录:痊愈所需时间,得到下面的记录:(=0.05)药物x治愈所需天数y15,8,7,7,10,824,6,6,3,5,636,4,4,5,4,347,4,6,6,3,559,3,5,7,7,6方差分析及回归分析优秀课件23这里药物是因素,共有这里药物是因素,共有5 5个水平,这是一个单

12、因个水平,这是一个单因素方差分析问题,要检验的假设是素方差分析问题,要检验的假设是“所有药物所有药物的效果都没有差别的效果都没有差别”。0123451125:,.,HH 解:检验假设不全相等。21234511123455,6,30,1047,.45,.30,.26,.31,.37,.169jnsijjisnnnnnnXTTTTTT方方差差分分析析表表方差来源方差来源平方和平方和自由度自由度均方均方F比比药物因素药物因素36.466749.1167 3.90误差误差58.5000252.3334总和总和94.9667290.050(4,25)2.76FH。拒绝,认为疗效有显著差异。方差分析及回归

13、分析优秀课件24未知参数的估计221;(2)(3)(4)EEjjjjjjSSXnsXXX()的估计的估计;的估计;的估计。容易证明,以上估计均为相应参数的无偏估计。220(,)(,)()jkjkjkHNNjk当拒绝时,需进一步比较和的差异,可以作或的区间估计或假设检验。1jk区间估计:求的置信水平为的置信区间01:,:jkjkHH假设检验:在 显著性水平下检验方差分析及回归分析优秀课件252()EEjkSSnsXX是的无偏估计,且与相互独立。()()=()(11)jkjkEjkXXt nsSnn()1jk得的水平为的置信区间2()(11)jkEjkXXtnsSnn1jk的置信水平为的置信区间2

14、2(,/),(,/)jjjkkkXNnXNn 2211(,)jkjkjkXXNnn 但注意到这里的是未知的2()()()(11)jkjkEjkXXSWnsnn故取12()tns2()tn s/2/22()1P Wtns 设方差分析及回归分析优秀课件2601:,:jkjkHH假设检验:在 下检验()()()(11)jkjkEjkXXt nsSnn12()tns2()tn s/2/202()(11)jkjkEjkHXXttnsSnn的拒绝域为:0()()(11)HjkjkEjkXXtt nsSnn取检验统计量方差分析及回归分析优秀课件27213123521,(1,2,3,4,5)0.95jjj 例

15、求例 中未知参数的点估计,并求,的置信度为的置信区间。222.33345.63337.5,5,4.3333,5.1667,6.16671.8667,0.6333,1.3,0.4666,0.5334EjjSXns解:的估计;的估计;的估计分别为:;的估计分别为:0.025(25)2.0595,(11)0.8819EjktSnn查表得1312350.95(1.3504,4.983)(0.6837,4.3163)(3.6497,0.0171),的置信度为的置信区间分别为:,13123595%05%由于的各置信区间均不含,说明 与,与,与在显著性水平下都有显著差异。以上也可以用假设检验。方差分析及回归

16、分析优秀课件28310.95j例求例 中求的置信度为的置信区间解:(0,1)/jjjXWNn取作函数可以吗?不行!因为 未知2/()jjjEXnWSns取函数/jjEjXSn()t ns/2()1P Wtns 设/2/2()/()/)1jjEEjjjP Xtn sSnXtn sSn 即/21-()/)jEjjXtnsSn的置信区间为((1)/jjjjjXt nSn用,好吗?12()tns2()tn s/2/2方差分析及回归分析优秀课件29例例4 4:某高校随机抽取了四个年级共:某高校随机抽取了四个年级共6161名学生,对他们的月名学生,对他们的月生活费作问卷调查,考察不同年级同学月生活费间是否

17、有生活费作问卷调查,考察不同年级同学月生活费间是否有显著差异。设数据符合单因素方差分析模型所要求的条件。显著差异。设数据符合单因素方差分析模型所要求的条件。(1 1)完成下列方差分析表)完成下列方差分析表(2 2)在显著性水平)在显著性水平0.010.01下,检验各年级同学月生活费是否下,检验各年级同学月生活费是否有显著差异?(说明理由)有显著差异?(说明理由)626.835 3968.381 F方差来源平方和自由度均方比年级误差总和360571880.5052087.87636.62917.11解:(1)如表所示02:H()各年级同学月生活费没有差异0(1,)HAESFF snsS为真比取检

18、验统计量:0(1,)HFFsns的拒绝域为0.0117.11(3 57)=4.15FF比本题中,0,H样本数据落在拒绝域,故拒绝即认为各年级同学月生活费是有显著差异的!方差分析及回归分析优秀课件302123123(,),1,2,3 10,8,12 78.5,70.2,73.4650.2jjTXNjnnnXXXS 533例:个学校用同一份试卷对学生测试,设测试成绩分别为。从 个学校中分别抽取份试卷,且经计算得到:及01231123(1)(2)0.01,HH 填写方差分析表 在下检验,:不全等1(1)(10*78.5 8*70.2 12*73.4)74.2530X 解:3211()jnjAjiSX

19、X22210(78.574.25)8(70.274.25)12(73.474.25)或32211jnjjjin XnX320.5ETASSS650.2 320.5329.7为此可得到如下的方差分析表方差分析及回归分析优秀课件31320.5 650.2 F方差来源平方和自由度均方比学校误差总和 329.722927160.2512.2113.1201231123(2)0.01,HH 在下检验,:不全等0(1,)HAESFF snsS为真比取检验统计量:0(1,)HFFsns比的拒绝域为0.0113.12(2 27)=5.49FF比本题中,0,H3样本数据落在拒绝域,故拒绝即认为 个学校学生成绩是

20、有显著差异的!方差分析及回归分析优秀课件323 一元线性回归分析一、确定性关系:一、确定性关系:当自变量给定一个值时,就确定应变量的值当自变量给定一个值时,就确定应变量的值与之对应。即有与之对应。即有 y=f(x)如:在自由落体中,物体下落的高度如:在自由落体中,物体下落的高度h与下与下落时间落时间t之间有函数关系:之间有函数关系:21h=g t2变量与变量之间的关系 确定性关系相关性关系方差分析及回归分析优秀课件33二、相关性关系:二、相关性关系:变量之间的关系并不确定,而是表现为具有变量之间的关系并不确定,而是表现为具有随机性的一种随机性的一种“趋势趋势”。即对自变量。即对自变量x的同一值

21、,的同一值,在不同的观测中,因变量在不同的观测中,因变量Y可以取不同的值,而可以取不同的值,而且取值是随机的,但对应且取值是随机的,但对应x在一定范围的不同值,在一定范围的不同值,对对Y进行观测时,可以观察到进行观测时,可以观察到Y随随x的变化而呈现的变化而呈现有一定趋势的变化。有一定趋势的变化。如:身高与体重,不存在这样的函数可以如:身高与体重,不存在这样的函数可以由身高计算出体重,但从统计意义上来说,身高由身高计算出体重,但从统计意义上来说,身高者,体也重。者,体也重。再如:父亲的身高与儿子的身高之间也有一再如:父亲的身高与儿子的身高之间也有一定联系,通常父亲高,儿子也高。定联系,通常父亲

22、高,儿子也高。回归分析回归分析研究相关性关系的最基本、应用最研究相关性关系的最基本、应用最广泛的方法。广泛的方法。方差分析及回归分析优秀课件34(一)一元线性回归Yxx设随机变量 与 之间存在某种相关关系。这里,是可以控制或精确观测的变量(不是随机变量),如年龄、试验时的温度、施加的压力、电压与时间等。()()YxYF y xF y xxYx由于 是随机变量,对于 的每个确定值,有相应的分布,记其分布函数为。因此如果掌握了随着 的取值而变化的规律,也就完全掌握了 与 之间的关系了。方差分析及回归分析优秀课件35()()()()YE YxxxYxYxE Yxx然而这样做,实际上往往很难实现。作为

23、一种近似,考察 的数学期望(假设存在),其值随 的取值而定,它是 的函数,将其记为,称为 关于 的。于是将讨论 与 相关关系问题转换为讨论与 的关系回归函数问题了。方差分析及回归分析优秀课件36在实际问题中,回归函数(x)一般是未知的,需要根据试验数据去估计,而Y是可以观察的。(,)()iix yx将每对观察值在直角坐标系中描出它相应的点(称为散点图),可以粗略看出的形式。()(),()xxabxx假设为线性函数:此时估计的问题称为求一元线性回归问题。121122,.,(,)1,2,.,(,),(,),.,(,).niiinnxx xxxYx Yinx yxyxy对于 取定一组不完全相同的值设

24、分别在处对 作独立观察得到样本,对应的样本观察值方差分析及回归分析优秀课件3720.N正态假设:,22()()0,(),(,YxabxEDa b是随机误差,不可控制,基本假设:回归系数)未知.1122,(,),(,),.,(,)nnxx Yx Yx Y对 的一组不全相同的值 得到样本22,1,2,.,()0,(),(,iiiiiiYabxinEDa b相互独立,一元线性回归模型:回归系数)未知.20,1,2,.,.iNin正态假设:,相互独立,方差分析及回归分析优秀课件3822222(,)(0,)(,)(0,),iiiiiiYN abxYabxNYN abxYabxNa bx整理一下:其中未知

25、参数都不依赖于 的常数!iiixy是可观察的非随机变量是可观察的随机变量是不可观察的随机变量 iiixy可观察随机变量是否是是否是方差分析及回归分析优秀课件39一元线性回归要解决的问题:(5)()xa bx 回归函数的点估计和置信区间;(1),a b的估计;2(2)的估计;(3)线性假设的显著性检验;(4)b回归系数 的置信区间;(6)Y的观察值的点预测和区间预测。方差分析及回归分析优秀课件40(二)a,b的估计最小二乘估计21,niiiQ a byabx 目标函数,a ba bQ a bminQ a b求估计,使。12()0,niiiQyabxa 11(),nniiiinax by整理得12

26、()0.niiiiQyabx xb 2111()()nnniiiiiiix axbx y正规方程组1x2x3xixnxyabx方差分析及回归分析优秀课件41/,xyxxbSSa bayxb的最小二乘估计:211121111,.nnniixxiiiinnxyiiyyiiiyyxxSxxnnSxxyySyy记 号:/,xyxxbSSayxb将正规方程整理得:2122111211()0ninnniiiinniiiiiiinxnxxnxxxx正规方程系数行列式不为0,方程有唯一解方差分析及回归分析优秀课件42在误差为正态分布假定下,最小二乘估计等价于极大似然估计。2212211,exp2 niiniL

27、 a bya bx事实上,似然函数21,niiiL a byabx对最大化等价于使达到最小,即最小二乘估计。方差分析及回归分析优秀课件43/,xyxxbSSa baybx前面已得的最小二乘估计:()()xxabxxabx给定,的估计为:经验回归函数。yabxYx方程:关于 的(经验)回归方程,其图形称为回归直线。(,)aybxyabxx y因为即所以说,样本中心点在回归方程上。()yyb xx回归方程也可写为:方差分析及回归分析优秀课件4422211()innxxiiiSxxxnx22111()inniiixxn22211()innyyiiiSyyyny22111()inniiiyyn111(

28、)()()()nnnxyiiiiiiiiSxx yyxx yxx y11()nniiiiixx yx ynxy1()niiixx y1niiix ynxy关于计算1111nnniiiiiiix yxyn 方差分析及回归分析优秀课件45例1 K.Pearson收集了大量父亲身高与儿子身高的资料。其中十对如下:父亲身高父亲身高x(英寸)(英寸)60626465666768707274儿子身高儿子身高y(英寸)(英寸)63.6 65.26665.5 66.9 67.1 67.4 68.3 70.170求Y关于x的线性回归方程。注:1英寸=2.54厘米方差分析及回归分析优秀课件462221166.8,

29、67.01,44794,44842.4,171.6,79.72.iiiniixxiinxyiiixyxx ySxnxSx ynxy计算得:0.4646,35.9768xyxxSbSa baybx的最小二乘估计:35.97680.4646.67.010.4646(66.8).yxyx回归方程:或写成:方差分析及回归分析优秀课件47(三)误差方差的估计22()()E YabxE2()()DE2220误差方差估计的意义误差方差估计的意义:误差方差的大小对模型好坏有很大的误差方差的大小对模型好坏有很大的影响。影响。自变量对因变量影响的大小是同误差自变量对因变量影响的大小是同误差对因变量的影响相比较的。

30、如果自变对因变量的影响相比较的。如果自变量对因变量的影响不能显著的超过误量对因变量的影响不能显著的超过误差对因变量的影响,就很难从这样的差对因变量的影响,就很难从这样的模型中提炼出有效的、有足够精度的模型中提炼出有效的、有足够精度的信息。信息。方差分析及回归分析优秀课件4822(1),(2)2eyyxyeeQSbSQQn则是的无偏估计.22111,2,(),iiinneiiiiieyyinQeyyQ a b定义:残差,残差平方和i误差 的估计2211()nneiiiiiQeyy证明:(1)2221112nnniiiiiiiyybyyxxbxx22yyxyxxSbSb S/xyxxbSS()ii

31、yyb xx21niiiyyb xx.yyxySbS方差分析及回归分析优秀课件49一元线性回归模型的平方和、自由度分解21()niiUyy定义:回归平方和21()niiabxabx21()niibxbx2xxb SxybSyyESQU=即总平方和 残差平方和+回归平方和222111()()()nnniiiiiiiyyyyyy平方和分解:1(2)1nn自由度分解:方差分析及回归分析优秀课件50222167.01,44941.93,38.529.iiinyyiyySyny计算得:79.72,0.4646.xySb又已知221.491,(2)0.186.eyyxyeQSbSQn所以,的无偏估计例2:

32、求例1中误差方差的无偏估计。方差分析及回归分析优秀课件51(1 1)影响)影响Y取值的,除了取值的,除了x,还有其他不可忽略的因素;,还有其他不可忽略的因素;(2 2)E(Y)与与x的关系不是线性关系,而是其他关系;的关系不是线性关系,而是其他关系;(3 3)Y与与x不存在关系。不存在关系。(四)线性假设的显著性检验(四)线性假设的显著性检验01:0,:0,HbHb即要检验假设 采用最小二乘法估计参数采用最小二乘法估计参数a和和b,并不需要事先知道,并不需要事先知道Y与与x之间一定具有相关关系,即使是平面图上一堆完全杂乱无章之间一定具有相关关系,即使是平面图上一堆完全杂乱无章的散点,也可以用公

33、式求出回归方程。因此的散点,也可以用公式求出回归方程。因此(x)是否为是否为x的线的线性函数,一要根据专业知识和实践来判断,二要根据实际观性函数,一要根据专业知识和实践来判断,二要根据实际观察得到的数据用假设检验方法来判断。察得到的数据用假设检验方法来判断。若原假设被拒绝,说明回归效果是显著的,否则,若原假设被拒绝,说明回归效果是显著的,否则,若接受原假设,说明若接受原假设,说明Y与与x不是线性关系,回归方程不是线性关系,回归方程无意义。回归效果不显著的原因可能有以下几种:无意义。回归效果不显著的原因可能有以下几种:方差分析及回归分析优秀课件52一元线性回归模型下的统计量分布(P321)000

34、0120(6),nEYa bxY YYY Y Q 若与,独立,则,相互独立。,(5)eY b Q,相互独立。000(3)()Ya bxY b xx 2222(4)0(1)(2)eQnUb,当时22)(,)(xxbN bS221(,)xxxaN anS211(1)(,)niiYYN abxnn2200()1(,)xxxxN a bxnS方差分析及回归分析优秀课件532(,)iiYYN abxY是各独立的的线性函数,故 也是正态1111()()()nniiiiE YEYE Ynn11()niia bxnabx21111()()()nniiiiD YDYD Ynn2211nin2n2(1),/YN

35、abxn()1()()()()0 xyiiixxxxSE bExx E YE YSS问,对吗?方差分析及回归分析优秀课件54121()()()niixyinxxiixx yySbSxx121()()()()()niiiniixx E yE yE bxx2221(2),xxxxxaNnbNabSS,121()()()niiiniix x a bx a bxx x b212 21()()()()niiiniixx DyD bxx2212 21()()niiniix xx x221()niix x2xxS121()()niiiniixx yxx方差分析及回归分析优秀课件55221,xxxaN anS

36、()()E aE ybx()()E yE b xabxbxa()()ybD aD ybx与 独立,2()()D yD b x222xxxnS221xxxnS方差分析及回归分析优秀课件562221(2)2neiiiiQyyny,中有 个未知数。0(0,1)/xxxxbbbbNSS当时,22222(1)/xxxxb SbUS220(1)Ub当时2222(2)(4)0(1)eUQnb,当时222()2,(),22eeeeQQQEnEQnn方差分析及回归分析优秀课件57222(,),(2),eexxQbN bnbQS并且 与独立。01:0,:0,HbHb检验假设bc拒绝域形式:。22(2)2exxQb

37、bnt nS故,002/xxexxHbbbtt nSQS当为真即时,取检验统计量,2|2/xxbttnS水平为 的检验拒绝域:12(2)tn2(2)tn/2/2方差分析及回归分析优秀课件5820.4646171.60.186.2ExxeQbSQn由例1,例2知:,例3 检验例1中回归效果是否显著,取=0.05。0:0|2.306./xxHbbtS因此假设的检验拒绝域为:20.025282.306.tnt查表得:00.464614.12.306.0.186/171.6:0tHb计算得,故拒绝,认为回归效果是显著的。方差分析及回归分析优秀课件59*也可用方差分析检验回归效果是否显著01:0,:0H

38、bHb前面已知“”的检验统计量为:(2),/2Exxbtt nQSn22/(2)/(2)xxEEb SUtFQnQn记为比则(1,2)Fn0(1,2)HFFn的 水平拒绝域为:02222(2),(1)beQUn 1 (2)/2/(2)1xxEEyyEyyFUbSUnU QQSUnQnSn比方差来源平方和自由度均方回归残差总和一元正态线性回归模型的方差分析表方差分析及回归分析优秀课件60212xxbbtnS即的置信水平的置信区间:(五)回归系数b的置信区间当回归效果显著时,常需要对回归系数b 作区间估计2/xxbbWt nS取函数,2(2)P Wtn设=1-0.950.1860.46462.30

39、60.389,0.541171.6b例如例1中 的置信水平为的置信区间为:12(2)tn2(2)tn/2/2方差分析及回归分析优秀课件61 (六)回归函数 函数值的点估计和置信区间000000()().xxabxyxabx对给定的,的点估计为0000002002()2()1()12xxYabxxabxxabxxxYtnnS则有(1)相应的估计量是无偏估计,()的置信水平为的置信区间为:000(1)(),(),()().E bb E aaE YE abxabx证明:因为所以即为无偏估计()xabx方差分析及回归分析优秀课件6221200012(,).xxYN abxxxSn()可以证明:2202

40、2(2)(2);eeQnnYQ又有,且 与独立。2002210()(2)(2)21xxYa bxnWnt nxxSn取函数,00210()21xxYabxWt nxxSn即,002002()1()12xxxabxxxYtnnS所以,的置信水平为的置信区间为:12(2)tn2(2)tn/2/2方差分析及回归分析优秀课件63(七)Y的观察值的点预测和预测区间0000 xxYYxxYY考虑对指定点处因变量 的观察值 的预测问题。由于在处并未进行观察,或暂时无法观察。经验回归函数的重要应用是,可利用它对因变量 的新观察值进行点预测和区间预测。0020000,(0,).YxxYYabxN设 是在处对 的

41、观察结果。则000(1).YYabx的点预测为:020021()121.xxYxxYtnnS(2)的置信水平为的预测区间为:方差分析及回归分析优秀课件64012,.,nYY YY证明:因 是将要做的独立试验结果,因此,它与已得到的试验结果相互独立。0001200,.,nYabxYb xxY YYYY又是的线性组合,故 与 相互独立。202200001(,),(,).xxxxYN abxYN abxnS202001(0,1),xxxxYYNnS所以,220022(2)(2);eeQnnYYQ又且,相互独立。200220(2)(2)211xxYYnWnt nxxnS 取函数,方差分析及回归分析优秀

42、课件6500 xxxx注1,这一预测区间的长度随的增加而增加,当时最短。002021 1xxYYWt nxxnS即,020021()121.xxYxxYtnnS所以,的置信水平为的预测区间为:000000002()()xYYabxxabx注,在相同的置信水平下,的置信区间要比的预测区间短。这是因为比多了一项 的缘故。12(2)tn2(2)tn/2/2方差分析及回归分析优秀课件66注:在预测时,一定要落在已有的 的数据范围内部,否则预测常常没有意义。0 xx方差分析及回归分析优秀课件67例例4 4,有人曾断言,有人曾断言“儿子身高会受到父亲身高的影响,但身儿子身高会受到父亲身高的影响,但身高偏离

43、父代平均水平的父亲,其儿子的身高有回归到子代高偏离父代平均水平的父亲,其儿子的身高有回归到子代平均水平的趋势。平均水平的趋势。”试问例试问例1 1这组数据能证实这一论断吗这组数据能证实这一论断吗 (=0.05)?=0.05)?当当x=69=69时时,求求(x)的置信及的置信及y y的预测区间。的预测区间。(1)(1)回归到平均水平的趋势,即检验回归到平均水平的趋势,即检验 01:1,:1HbHb2/xxbbt nS因为,235.9768,0.4646171.60.18666.8.xxabSx解:由例1,例2知:,0112/xxbHbtt nS所以,当为真即时,1(2)t n父代的平均身高父代的

44、平均身高x0与子代的平均身高与子代的平均身高y0可能是不可能是不同的。如果父亲偏离多少,儿子有相同偏离的话,同的。如果父亲偏离多少,儿子有相同偏离的话,则应该有则应该有y-y0=x-x0,其斜率,其斜率b为为1。如果。如果“有回归有回归到平均水平的趋势到平均水平的趋势”(即父亲(即父亲“特高特高”,儿子,儿子“较高较高”;父亲;父亲“特矮特矮”,儿子,儿子“较矮较矮”),则),则b1。方差分析及回归分析优秀课件68 0.05081ttHb=-1.8595,拒绝,认为。10.4646 116.2317/0.186/171.6xxbtS 经计算,12/xxbttnS 从而水平 的检验拒绝域:。00

45、026968.03xyabx()当时,(69)67.674,68.386.所以,的置信水平为0.95的置信区间为:2202()11(69 66.8)22.3060.1860.35610171.6xxxxtnnS2000()12690.9566.974,69.086.211.056.xxxxnSxYtn(3)时,的置信水平为的预测区间为:其中方差分析及回归分析优秀课件69例例5 合金钢的强度合金钢的强度y与钢材中碳的含量与钢材中碳的含量x有密切关系。为有密切关系。为了冶炼出符合要求强度的钢常常通过控制钢水中的碳含了冶炼出符合要求强度的钢常常通过控制钢水中的碳含量来达到目的,为此需要了解量来达到目

46、的,为此需要了解y与与x之间的关系。其中之间的关系。其中x:碳含量():碳含量()y:钢的强度(:钢的强度(kg/mm2)数据见下:)数据见下:x0.030.040.050.070.090.100.120.150.170.20y40.539.541.041.543.042.045.047.553.056.0(1)画出散点图;()画出散点图;(2)设)设(x)=)=a+bx,求求a,b的估计;的估计;(3 3)求误差方差的估计,画出残差图;()求误差方差的估计,画出残差图;(4 4)检验回归)检验回归系数系数b是否为零(取是否为零(取=0.05)=0.05);(;(5 5)求回归系数)求回归系数

47、b的的9595置信区间;(置信区间;(6 6)求在)求在x=0.06=0.06点,回归函数的点估计和点,回归函数的点估计和9595置信区间;(置信区间;(7 7)求在)求在x=0.06=0.06点,点,Y的点预测和的点预测和9595区区间预测。间预测。方差分析及回归分析优秀课件70 0.03 0.05 0.07 0.09 0.11 0.13 0.15 0.17 0.1956 54 52 50 48 46 44 42 40 38 (1)合金钢的强度y与钢材中碳的含量x的散点图方差分析及回归分析优秀课件71x0.030.040.050.070.090.100.120.150.170.20y40.5

48、39.541.041.543.042.045.047.553.056.02449,1.02,0.1338,48.555,0.02976,2.757.iiiiiiiiixxxyyxxx ySS(2)计算得:,35.4506,92.6411a bab的最小二乘估计:35.450692.6411.44.992.6411(0.102).yxyx回归方程:或写成:,/.xyxxayxbbSS方差分析及回归分析优秀课件722449,20443,282.9.iiyyiiyyS(3)计算得:2.757,92.6411.xySb又已知2227.4884,(2)3.436.eyyxyeQSbSQn所以,的无偏估计

49、 0.03 0.05 0.07 0.09 0.11 0.13 0.15 0.17 0.19 x0e方差分析及回归分析优秀课件73 0.03 0.05 0.07 0.09 0.11 0.13 0.15 0.17 0.1956 54 52 50 48 46 44 42 40 38 合金钢的强度y与钢材中碳的含量x的回归直线图方差分析及回归分析优秀课件74295267.8629,117.4193xxbbtnS(5)回归系数 的置信水平的置信区间:.012(4):0,:0|2/xxHbHbbttnS检验假设的显著性水平为 的 检验拒绝域:。0.02592.64118.621782.306,3.436/

50、0.02976tt经计算拒绝原假设,认为合金钢强度与炭含量的回归效果显著。方差分析及回归分析优秀课件7500060.0641.0091xyabx()当时,(0.06)39.303,42.715.所以,的0.95的置信区间为:22(0.06 0.102)012100.02976()122.3063.4361.706xxxxtnnS2000()120.060.9536.407,45.611.214.602.xxxxnSxYtn(7)时,的置信水平为的预测区间为:其中方差分析及回归分析优秀课件76(八)可化为一元线性回归的例子(八)可化为一元线性回归的例子 在实际问题中,常常会遇到这样的情在实际问题

51、中,常常会遇到这样的情形:散点图上的几个样本数据点明显地不形:散点图上的几个样本数据点明显地不在一条直线附近,而在某曲线周围。在一条直线附近,而在某曲线周围。或者,用线性回归方程描述变量间的或者,用线性回归方程描述变量间的关系计算的结果与样本值误差较大,这表关系计算的结果与样本值误差较大,这表明变量之间不存在线性相关关系,而是一明变量之间不存在线性相关关系,而是一种非线性的相关关系种非线性的相关关系.但在某些情况下,通过适当的变量变但在某些情况下,通过适当的变量变换,可将其化为一元线性回归来处理。换,可将其化为一元线性回归来处理。下面是几种常见的可转化为一元线性下面是几种常见的可转化为一元线性

52、回归的模型。回归的模型。方差分析及回归分析优秀课件77可化为一元线性回归的例子 22(1),ln(0,),xYeN 其中为未知参数。2,lnlnln,ln,ln,ln,(0,)xYeYxYYabYabxN 将两边取对数令即可转化为一元线性回归模型:。22(2),ln(0,),YxN 其中为未知参数。2,lnlnlnln,ln,ln,ln,ln,(0,)YxYxYYabxxYabxN 将两边取对数令即可转化为一元线性回归模型:。方差分析及回归分析优秀课件7822(3)(),(0,),Yh xN 其中为未知参数。2(),(),(0,)h xxab h xxYabxN 这里是 的已知函数,令即可转化

53、为一元线性回归模型:。22(4),ln(0,),0,0,xYeN其中为未知参数21,lnlnln,1ln,ln,ln,(0,)xYeYxYYxabxYabxN 将两边取对数令即可转化为一元线性回归模型:。方差分析及回归分析优秀课件79例例 在彩色显像技术中,考虑析出银的光学密度在彩色显像技术中,考虑析出银的光学密度x x与形成染料光学密度与形成染料光学密度Y Y之间的相关关系,其中之间的相关关系,其中 1111个样本数据如下所示:个样本数据如下所示:xi0.050.060.070.100.140.200.250.310.380.430.47yi0.100.140.230.370.590.791

54、.001.121.191.251.29解解 根据这根据这11个样本数据点个样本数据点(xi,yi)作出散点图)作出散点图.从散点图上看出,这些数据从散点图上看出,这些数据点在一条曲线点在一条曲线L周围周围.方差分析及回归分析优秀课件80根据有关的专业知识,结合散点图,可以认为根据有关的专业知识,结合散点图,可以认为曲线曲线L大致为:大致为:22,ln(0,),0,0,xYeN其中为未知参数21,lnlnln,1ln,ln,ln,(0,)xYeYxYYxabxYabxN 将两边取对数令即可转化为一元线性回归模型:。方差分析及回归分析优秀课件810.250.220.170.110.00-0.24-

55、0.53-0.99-1.47-1.97-2.302.132.332.633.234.005.007.1410.0014.2916.6720.00 xx1yyln于是数据(于是数据()相应地变换成()相应地变换成()iiyx,iiyx,将变换后的数据点(将变换后的数据点()画出散点图)画出散点图iiyx,从散点图可以看出从散点图可以看出 与与 具具有线性相关关系,因此用一有线性相关关系,因此用一元线性回归分析元线性回归分析.xy利用一元线性回归的方法可利用一元线性回归的方法可以计算出以计算出 与与 的经验回归的经验回归方程为方程为xy15.058.0 xy方差分析及回归分析优秀课件82可求得可求

56、得x与与y之间相关关系的一个经验公式:之间相关关系的一个经验公式:79.158.0eea15.0 bxey15.079.1这里这里a=0.58,b=-0.15所以所以方差分析及回归分析优秀课件83332.1213.9142.443.8619.729.95时间时间t(分秒)15001000800400200100距离距离X X(米)(米)例例 赛跑是大家熟知的一种体育活动。下表给出了赛跑是大家熟知的一种体育活动。下表给出了截至截至1997年底在年底在6个不同的距离上中短跑成绩的世个不同的距离上中短跑成绩的世界记录:界记录:试根据这些记录数据分析出运动员的赛跑成绩与试根据这些记录数据分析出运动员的

57、赛跑成绩与所跑距离间的相关关系。所跑距离间的相关关系。方差分析及回归分析优秀课件84解解 根据记录数据点(根据记录数据点(xi,ti)作出散点图)作出散点图 从散点图上看出,全部点(从散点图上看出,全部点(xi,ti)分布在)分布在一条曲线附近,因而一条曲线附近,因而x与与t之间可以存在一种线之间可以存在一种线性关系。性关系。用一元线性回归分析,可计算出用一元线性回归分析,可计算出x与与t间的线性间的线性回归模型为回归模型为 t=-99.9+0.1455x方差分析及回归分析优秀课件85由此模型,当由此模型,当x=100,200,400,800,1000,1500(米米)时,时,t的理论值的理论

58、值:4.56,19.10,48.20,146.4,215.5,328.2可以看出可以看出t的理论值与实际记录数据多数都比较接近。的理论值与实际记录数据多数都比较接近。仔细分析,可发现线性回归模型的一些不合理之处。仔细分析,可发现线性回归模型的一些不合理之处。如:当赛跑距离小于如:当赛跑距离小于68米时,所需时间为负值;米时,所需时间为负值;当赛跑距离为当赛跑距离为100米时所需时间只须米时所需时间只须4.56.再仔细分析,发现:短距离再仔细分析,发现:短距离100米、米、200米及长距离米及长距离1500米需要的时间实际值均高于线性模型的理论值,米需要的时间实际值均高于线性模型的理论值,而中间

59、的而中间的400米、米、800米、米、1000米需要的时间实际值均米需要的时间实际值均低于线性模型的理论值低于线性模型的理论值.t的实际值的实际值:9.95,19.72,43.86,142.4,213.95,332.1方差分析及回归分析优秀课件86它告诉我们它告诉我们x与与t的关系可能为一曲线,且曲线是的关系可能为一曲线,且曲线是下凸的。下凸的。对上式二边取对数对上式二边取对数lnt=lna+blnx令t=lnt a=lna x=lnx得 t=a+b x为一线性关系具有这种性质的最简单曲线当属幂函数:具有这种性质的最简单曲线当属幂函数:t=axb方差分析及回归分析优秀课件87aea用一元线性回

60、归分析估计用一元线性回归分析估计a、b,从而算出,从而算出最后可得最后可得t与与x间的幂函数模型:间的幂函数模型:t=0.48x1.145当当x=100,200,400,800,1000,1500(米)时,(米)时,利用幂函数模型算出利用幂函数模型算出t的理论值分别为:的理论值分别为:t的理论值2:9.39,20.78,45.96,141.68,211.29,328.88比较计算结果可知:幂函数模型比线性回归模型比较计算结果可知:幂函数模型比线性回归模型更能确切地反映更能确切地反映t与与x间的关系。间的关系。t的理论值1:4.56,19.10,48.20,146.4,215.5,328.2t的

61、实际值:9.95,19.72,43.86,142.4,213.95,332.1方差分析及回归分析优秀课件884 多元线性回归 在实际问题中,影响在实际问题中,影响Y(因变量)的因素(自变量)(因变量)的因素(自变量)往往不止一个,设有往往不止一个,设有 12,px xxp共 个.pY建立这 个因素与 的依赖关系将具有更广泛的应用价值.1212121212,(),pppppx xxYE Yx xxx xxx xxx xx设对于自变量的一组确定值,随机变量有它的分布。若存在,则它是的函数,记为()。这里讨论的是()是的线性函数的情况。方差分析及回归分析优秀课件8912,1,2,.iiipin np

62、xxxyin设进行次独立观测得到样本0112221201.,0,1,2,.,.,iiipipinpybb xb xb xNinb bb 即有独立同要求的最小二乘估计。201 1222012,0,pppYbb xb xb xNb b bb 即,多元线性回归模型:其中都是未知参数。方差分析及回归分析优秀课件9020111niipipiQybb xb x令012,.,.pb b bbQ要求使得 达到最小01110011120201,2,.,.niipipiniipipijijQybb xb xbQybb xb xxjp 012,.,pQb b bb求 分别关于的偏导数 并令它们等于零。方差分析及回归

63、分析优秀课件910111112011111111120111111.nnnipipiiiinnnniipiipiiiiiinnnnipipipipipiiiiinbbxbxybxbxbx xx ybxbx xbxx y化简得:称为正规方程。方差分析及回归分析优秀课件921011121212111,1ppnppnnxbxyxbxyXYBxbxy引入矩阵:,11111211221121111111pnpTppnpnpnxxxxxxxX Xxxxxx因为1211121iipiiiiiipiiiipipiipiiixxnxxx xxx xx方差分析及回归分析优秀课件931111211212111iii

64、inTippnpnipiiyyx yxxxyX Yxxxyx yTTX XBX Y于是正规方程的矩阵形式为,1TTTX XBBX XX Y设可逆,则 的最小二乘估计为:01 1.ppybb xb xp 元回归方程。方差分析及回归分析优秀课件94例6 某公司在各地区销售一种特殊化妆品。该公司观测了15 个城市在某月内对该化妆品的销售量Y及各地区适合使用该化妆品的人数X1和人均收入X2,得到数据如下:表1.1.2 化妆品销售的调查数据 地区i销售(箱)Yi人数(千人)Xi1人均收入(元)Xi211622742450212018032543223375380241312052838567862347

65、61692653782781983008方差分析及回归分析优秀课件95地区i销售(箱)Yi人数(千人)Xi1人均收入 (元)Xi281923302450911619521371055532560112524304020122323724427131442362660141031572088152123702605化妆品销售的调查数据(续)方差分析及回归分析优秀课件9620,N12假设误差服从正态分布试建立Y与X,X之间的线性回归方程。201 122,(0,)Ybb xb xN 选取模型:11622741120180.11031571212370X24503254.20882605Y012bBb

66、b44428709661911419181TX Y1522593626225939410764710736266471071067614TX X方差分析及回归分析优秀课件9713.45260.49600.0092TTBX XX Y正规方程的解:123.45260.49600.0092.yxx于是回归方程为:由回归方程可知,若固定人均收入不变,则人数每增加1千人,销售量增加0.496箱;若固定人数不变,收入每增加1元,销售量增加0.0092箱。多元线性回归也可以像一元线性回归一样,检验模型多元线性回归也可以像一元线性回归一样,检验模型的回归效果是否显著。所不同的是,在模型的回归效果显的回归效果是否显著。所不同的是,在模型的回归效果显著的情况下,还要检验每个自变量对因变量的效应是否显著的情况下,还要检验每个自变量对因变量的效应是否显著,不显著就要剔除,通常用逐步回归法可以使回归方程著,不显著就要剔除,通常用逐步回归法可以使回归方程变得简洁、明确、显著。在此基础上可以对给定点处对应变得简洁、明确、显著。在此基础上可以对给定点处对应的的Y进行点预测和区间预测。所有这些都可以通过进行点预测和区间

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!