最新SASGLM过程

上传人:仙*** 文档编号:48606485 上传时间:2022-01-12 格式:PPT 页数:280 大小:3.55MB
收藏 版权申诉 举报 下载
最新SASGLM过程_第1页
第1页 / 共280页
最新SASGLM过程_第2页
第2页 / 共280页
最新SASGLM过程_第3页
第3页 / 共280页
资源描述:

《最新SASGLM过程》由会员分享,可在线阅读,更多相关《最新SASGLM过程(280页珍藏版)》请在装配图网上搜索。

1、采用GLM过程进行回归和方差分析v1、 GLM应用背景v2、 GLM原理简介v3、 GLM的功能v4、 GLM的格式v5、 GLM作一元线性 回归 v6、 GLM作多元线性回归v7 、GLM作多项式回归v8、虚拟变量的设置v9、多个随机实验组协方差分析 ( GLM应用)v10 趋势面回归分析( GLM应用)v11 非线性回归分析一(对数、多项式回归)v12 非线性回归二 (拟合Logistic曲线与正负指数的回归)v13 方差分析(ANOVA )v14 多因素二水平排列组合方差分析( ANOVA 的应用)v15随机配伍组与对照组的方差分析( ANOVA 的应用) 采用GLM过程进行回归和方差分

2、析v1、 GLM应用背景 相关分析只能反映两变量之间的相关性强弱及趋势,但无法给出变量间因果关系的函数关系,即函数方程。 回归分析可以给出因变量(随机变量)与自变量(可控变量)的相关关系的函数关系式,GLM就是研究相关关系广泛的使用的方法。2、 GLM原理简介v(一)最小二乘法原理 GLM原理,是使用最小二乘法(least square method),研讨一个线性模型。(一)最小二乘法原理v一、背景基本介绍v 在实际应用中如,金融、经济变量之间的关系,大体上可以分为两种:v (1)函数关系:Y=f(X1,X2,.,XP),其中Y的值是由Xi(i=1,2.p)所唯一确定的。v (2)相关关系:

3、 Y=f(X1,X2,.,XP) ,这里Y的值不能由Xi(i=1,2.p)精确的唯一确定。(一)最小二乘法原理图图5-15-1表示的是我国货币供表示的是我国货币供应量应量M2M2(y y)与经过季节调整的与经过季节调整的GDPGDP(x x)之间的关系之间的关系(数据为(数据为19951995年第一季度到年第一季度到20042004年第二季度的季度数年第二季度的季度数据)。据)。(一)最小二乘法原理v但有时候我们想知道当x变化一单位时,y平均变化多少,可以看到,由于图中所有的点都相对的集中在图中直线周围,因此我们可以以这条直线大致代表x与y之间的关系。如果我们能够确定这条直线,我们就可以用直线

4、的斜率来表示当x变化一单位时y的变化程度,由图中的点确定线的过程就是回归回归。 (一)最小二乘法原理v但有时候我们想知道当x变化一单位时,y平均变化多少,可以看到,由于图中所有的点都相对的集中在图中直线周围,因此我们可以以这条直线大致代表x与y之间的关系。如果我们能够确定这条直线,我们就可以用直线的斜率来表示当x变化一单位时y的变化程度,由图中的点确定线的过程就是回归回归。 (一)最小二乘法原理v对于变量间的相关关系,我们可以根据大量的统计资料,找出它们在数量变化方面的规律(即“平均”的规律),这种统计规律所揭示的关系就是回归关系(regressive relationship),所表示的数学

5、方程就是回归方程(regression equation)或回归模型(regression model)。(一)最小二乘法原理v图5-1中的直线可表示为 v (5.1)根据上式,在确定、的情况下,给定一个x值,我们就能够得到一个确定的y值,然而根据式(2.1)得到的y值与实际的y值存在一个误差(即图2-1中点到直线的距离)。 y= x(一)最小二乘法原理v如果我们以表示误差,则方程(5.1)变为: y= uxtttuxy其中t(=1,2,3,.,T)表示观测数。 (5.2)(5.3)式(2.3)即为一个简单的双变量回归模型(因其仅具有两个变量x, y)的基本形式。 (一)最小二乘法原理v其中y

6、t被称作因变量(dependent variable)、 被解释变量(explained variable)、 结果变量(effect variable);vxt被称作自变量(independent variable)、解释变量(explanatory variable)、 原因变量(causal variable)(一)最小二乘法原理v、为参数(parameters),或称回归系数(regression coefficients);vt通常被称为随机误差项(stochastic error term),或随机扰动项(random disturbance term),简称误差项,v在回归模型中

7、它是不确定的,服从随机分布(相应的,yt也是不确定的,服从随机分布)。 (一)最小二乘法原理v为什么将t 包含在模型中?v(1)有些变量是观测不到的或者是无法度量的,又或者影响因变量yt的因素太多;v(2)在yt的度量过程中会发生偏误,这些偏误在模型中是表示不出来的;v(3)外界随机因素对yt的影响也很难模型化,比如:恐怖事件、自然灾害、设备故障等。(一)最小二乘法原理v假设线性回归模型为v t=1,2,3.T(5-4)v对y产生影响的解释变量共有k-1(x2t,x3t,xkt)个,系数(12.k)分别衡量了解释变量对因变量y的边际影响的程度。v最小二乘法的基本原则是:最优拟合直线应该使各点到

8、直线的距离的和最小,也可表述为距离的平方和最小。tktktttuxxxy.33221(一)最小二乘法原理v方差分析 SST=SSE+SSRvSST、SSE、SSR的关系以下图来表示更加直观一些: 图52 SST、SSE、SSR的关系(一)最小二乘法原理 = + (5.5)2 yyt2 yyt2tu 是被模型所解释的部分,称为回归平方和(the explained sum of squares,简记SSR); 是不能被模型所解释的残差平方和(SSE),即 = 2 yy2tu2tu2ttyy配置最佳线性方程的条件是:1、 SSR达到最小2、因变量的偏离其均值的偏差和为零。 采用GLM过程进行回归和

9、方差分析v1、 GLM应用背景v2、 GLM原理简介v3、 GLM的功能v4、 GLM的格式v5、 GLM作一元线性 回归 v6、 GLM作多元线性回归v7 、GLM作多项式回归v8、虚拟变量的设置v9、多个随机实验组协方差分析 ( GLM应用)v10 趋势面回归分析( GLM应用)v11 非线性回归分析一(对数、多项式回归)v12 非线性回归二 (拟合Logistic曲线与正负指数的回归)v13 方差分析(ANOVA )v14 多因素二水平排列组合方差分析( ANOVA 的应用)v15随机配伍组与对照组的方差分析( ANOVA 的应用) 统计计算统计计算Statistical Computa

10、tion本章目录GLM中语句的格式vProc GLM data=datanameoutput =输出统计量order=formated | freq| data|internal;vClass 分类变量;/*此为第二条语句,后面需model配合*/vModel 因变量 Y=自变量 X /NOINT| INT|intercept|NounI |solution| tolerrance| E |E1 |E2|E3|E4 |SS1 |SS2|SS3 |SS4|P|CLM|CLI|ALPHA= | XPX|INVERSE|SINGULAR=1E-8或0|ZETA=1E-8或0统计计算统计计算Stati

11、stical ComputationGLM中语句的格式(续)vCONTRAST 对照说明 。10个汉字,20个字符 向量 L及元素/E|E=effect或默认为MS|ETYPE=n|SINGULAR=number;vESTIMATE 估计的说明,小于20个字符 值1 值2 /E|DIViSOR=number |SINGULAR=number;vLSMEANS effect /E|=effect|ETYPE=n|SINGULAR=number|STDERR|PDIFF;vNMAMES=names PREFIX=name/PRINTH PRINTE HTYPE=n ETYPE=nCANONICAL

12、 SUMMARY ORTH;统计计算统计计算Statistical ComputationGLM中语句的格式(续)voutput out=数据集名称 predicted=变量表|P=变量表RESIDUAL=变量表|R=变量表;vRandom effect/Q;vREPEATED 因变量名 因子1 因子2 因子3 (值1 值2 )v转换的关键字/选项;/*详见ANOVA一章*/ TEST H=effects E=effect/HTYPE=ETYPE=; /*详见ANOVA一章*/ 统计计算统计计算Statistical ComputationGLM中语句的格式(续)vBY 变量表;vABSORB

13、 变量表;/*变量表须预先sort。此语句使GLM无法产生预测值或输出一个数据集*/vFREQ 变量表;/*按变量表中的观察值n,显示n次*/vID 变量表;/*要求在同行上显示出各变量值、预测值及残差*/vMEANS Effcet/ 选项; /*详见ANOVA一章means语句*/ 统计计算统计计算Statistical ComputationGLM中各语句的格式说明v1、主语句 proc GLM 的说明vProc GLM data=datanameoutput =输出统计量order=formated | freq| data|internal;v order=关键字, order=for

14、mated | freq| data|internal可选4个中的某个:vorder=formated :要求人为指定数据显示格式vorder= freq:要求按观察值频次降序排列统计计算统计计算Statistical ComputationGLM中各语句的格式说明(续)vorder= data:要求按数据录入顺序(即原始数据行)显示数据行。vorder=internal:按系统默认格式显示数据行。统计计算统计计算Statistical ComputationGLM中各语句的格式说明(续)v2、Class 分类变量;v格式为: v class V1 V2vV1 V2均为分类变量,字符型变量限于

15、10个字符内。vClass 分类变量;/*此为第二条语句,后面必需与model配合*/统计计算统计计算Statistical ComputationGLM中各语句的格式说明(续)vModel语句(必不可少)vModel语句(必不可少),用于建立各种回归模型或方差分析模型。v例:设A、B、C代表分类变量,V1-V3代表连续变量,可用Model语句建立三类模型,统计计算统计计算Statistical ComputationGLM中各语句的格式说明(续)模型MODEL模型具体名称回归模型Model y=v1简单回归Model y=v1 V2多元回归Model y=v1 V1*V2多项式回归(高次)M

16、odel y1 y2=v1 V2多变量回归方差分析模型Model Y=A单因子ANOVAModel Y=A B C主效应(effect)模型Model Y=A B A* B 含交互效应因子模型Model Y=A B( A)C ( B A)嵌套(Nested effect)模型Model y1 y2=A B多变量方差分析(MANOVA)统计计算统计计算Statistical ComputationGLM中各语句的格式说明(续)vModel 备注 :v1)model Y= A b c a*b a*c b*c a*b*c 等效于 model Y=a |b|c;v等号右边为自变量或独立变量,比如 A

17、bv等号左边为因变量3、控制标准假设检验方面的选项vE:要求GLM显示所有估计函数的一般格式。vE1:显示每个效应(effect)第一类(TYPEI)的估计函数。vE2:显示每个效应(effect)第二类(TYPE2)的估计函数。vE3:显示每个效应(effect)第三类(TYPE3)的估计函数。vE4:显示每个效应(effect)第四类(TYPE4)的估计函数。3、控制标准假设检验方面的选项(续)vss1:显示每个效应配合type1估计函数所产生的平方和ssvss2:显示每个效应配合type2估计函数所产生的平方和ssvss3:显示每个效应配合type3估计函数所产生的平方和ssvss4:显

18、示每个效应配合type4估计函数所产生的平方和ss4、预测值与残差值的选项vP:要求GLM显示每个观测值、预测值、残差及DW统计量。vClm 显示每个观测值、预测值的置信度vCli显示每个观测值置信度vALPHA=p :指定置信区间的ALPHA值5、显示中间结果vXPX:要求显示XTX矩阵vInverse:显示XTX矩阵逆矩阵或一般化矩阵v 6、调整模型vSingular =值n:v调整回归模型对线性关系的敏感性。默认值为n=1E-8vZETA= 值m:对可估计的type3和type4两检验函数的敏感性进行检验。m=1E-8vProc glm;vClass a b c ;vModel y=a|

19、b|c| E2 E3 ZETA=1E-6统计计算统计计算Statistical ComputationContrast (对照)语句vContrast 格式v contrast 对照说明 向量L 值1 值2 /选项;v该语句可以对结果进行假设检验v如 单变量 (H0: LB =0)多变量(H0: LBM =0)统计计算统计计算Statistical ComputationContrast (对照)语句v例如Model Y= A B;A有五种值,B有三种值v向量L元素为:v (miu A1 A2 A3 A4 A5 B1 B2 B3)vH0:A合并线性(pooled A liner)与A二次效应为

20、0vL矩阵(0 -2 -1 0 1 2 0 0 )v (0 2 -1 -2 -1 2 0 0 )统计计算统计计算Statistical ComputationContrast (对照)语句v/ 后的选项vE 要求显示整个L向量vE=effect: 在模型中指定一个effect项为误差项。省略用估计的MS作为误差项vETYPE=n n=1 2 3 4 指明E=effect类型vSingular =number:用于检查估计值。统计计算统计计算Statistical ComputationContrast (对照)语句vProc glm;vClass a b c ;vModel y=a|b|c|

21、E2 E3 ZETA=1E-6vContrast A的线性与二次效应v A -2 -1 0 1 2v A 2 -1 -2 -1 2v/ E Singular =1E-2;统计计算统计计算Statistical ComputationEstimate语句v该句用于估计参数的线性函数,它必须紧跟在MODEL之后 v格式:v model v estimate 标签内容( Fv v Model 4 8557.689709 2139.422427 142.31 Fv group 2 7364.333333 3682.166667 244.92 .0001v age 1 1124.205667 1124.

22、205667 74.78 Fv group 2 4452.034676 2226.017338 148.07 .0001v age 1 868.748973 868.748973 57.79 |t|v Intercept -52.36421256 B 32.01484931 -1.64 0.1184v group Casein 49.08673657 B 7.51889522 6.53 .0001 group Hydrolysate-I 4.50030871 B 5.15175258 0.87 0.3933 group Hydrolysate-II 0.00000000 B . . .v ag

23、e 3.73762612 0.49168184 7.60 |t| Numberv Casein 84.5577215 3.5301129 .0001 1v Hydrolysate-I 39.9712936 1.5696985 .0001 2v Hydrolysate-II 35.4709849 4.2399044 |t| for H0: LSMean(i)=LSMean(j)v Dependent Variable: weightv i/j 1 2 3v 1 .0001 .0001v 2 .0001 0.3933v 3 .0001 0.3933v显示所有可能的概率值。统计计算统计计算Stati

24、stical Computation5、调用GLM程序作一元线性回归v例如:vProc glm;vFormat edc edcf;vFormat sex sexf;vmodel sal2 =edc;vOutput out= new1 P=predict R=residual;vProc plot ;vPlot sal2*edc predict*edc=p/overlay;vPlot residual*edc/vref=0;vRun;统计计算统计计算Statistical Computation结果说明vP 表示图点vVref 表示正负分界线v残差不独立说明统计计算统计计算Statistical

25、 Computation第二节 一元回归估计与检验理论v估计(LSE)v检验(F)v第一节估计理论-参数的最小二乘估计v(一) 方法介绍v本章所介绍的是普通最小二乘法(ordinary least squares,简记OLS);v最小二乘法的基本原则是:最优拟合直线应该使各点到直线的距离的和最小,也可表述为距离的平方和最小。v假定根据这一原理得到的、估计值为 、 ,则直线可表示为 。ttyxv直线上的yt值,记为 ,称为拟合值(fitted value),实际值与拟合值的差,记为 ,称为残差(residual) ,可以看作是随机误差项 的估计值。 v根据OLS的基本原则,使直线与各散点的距离的

26、平方和最小,实际上是使残差平方和(residual sum of squares, 简记RSS) 最小,即最小化:tytutuT21ttuT21()tttyyT21()tttyx RSS= = (2.4) v根据最小化的一阶条件,将式2.4分别对、求偏导,并令其为零,即可求得结果如下 :22xTxxyTyxtttyx(2.5) (2.6) v(二)一些基本概念v1.总体(the population)和样本(the sample)v总体是指待研究变量的所有数据集合,可以是有限的,也可以是无限的;而样本是总体的一个子集。v2、总体回归方程(the population regression fu

27、nction,简记PRF),样本回归方程(the sample regression function,简记SRF)。v总体回归方程(PRF)表示变量之间的真实关系,有时也被称为数据生成过程(DGP),PRF中的、值是真实值,方程为:ttxy+tu (2. 7) 样本回归方程(SRF)是根据所选样本估算的变量之间的关系函数,方程为: 注意:SRF中没有误差项,根据这一方程得到的是总体因变量的期望值txy(2.8) 于是方程(2.7)可以写为: (2.9)v总体y值被分解为两部分:模型拟合值( )和残差项( )。y tutttyxuv3.线性关系v对线性的第一种解释是指:y是x的线性函数,比如,

28、y= 。v对线性的第二种解释是指:y是参数的一个线性函数,它可以不是变量x的线性函数。比如y= 就是一个线性回归模型, 但 则不是。v在本课程中,线性回归一词总是对指参数为线性的一种回归(即参数只以一次方出现),对解释变量x则可以是或不是线性的。x2xxyv有些模型看起来不是线性回归,但经过一些基本代数变换可以转换成线性回归模型。例如, tutteAxy (2.10) 可以进行如下变换: tttuxAylnlnln (2.11) 令 、 、 ,则方程(2. 11)变为: ttyYln Aln ttxXlntttuXY(2.12) 可以看到,模型2.12即为一线性模型。 v4.估计量(estim

29、ator)和估计值(estimate)v估计量是指计算系数的方程;而估计值是指估计出来的系数的数值。v最小二乘估计量的性质和分布v(一) 经典线性回归模型的基本假设v(1) ,即残差具有零均值;v(2)var F1-(t-1,n-t)时,拒绝时,拒绝H0;当;当FF1-(t-1,n-t)= F0.95(4,30)=2.69,拒绝,拒绝H0,即,即不同的销售方法对销售额由显著的影响。不同的销售方法对销售额由显著的影响。方差来源方差来源平方和平方和自由度自由度均方均方F比比销售方法销售方法377.93494.4810.46误差误差270.99309.03总和总和648.9334单因素方差分析表单因

30、素方差分析表单因素模型中未知参数的估计:单因素模型中未知参数的估计:tnSSEE2为为2的无偏估计的无偏估计;X为为的无偏估计的无偏估计;iiX为为i的无偏估计的无偏估计;如果拒绝如果拒绝H0即认为效应即认为效应a1, a2,at显著时,可得效应显著时,可得效应ai的无偏估计的无偏估计iiXXai=1,2,t例例8.3(续续例例8.1) 求求和和ai的估计值。的估计值。解解45.22359 .785nTX16. 145.2271491111XnTa15. 245.2271 .1722222XnTa89. 145.2279 .1433333XnTa22. 445.2276 .1274444XnT

31、a16. 545.2273 .1935555XnTa如果假设检验的结果是拒绝如果假设检验的结果是拒绝H0 ,则可进一步找出因素,则可进一步找出因素A取哪一个水平时试验指标最佳。取哪一个水平时试验指标最佳。对不同水平作两两比较检验:对不同水平作两两比较检验:H0*: i = j ,(ij,i,j=1,2,t)取检验统计量取检验统计量EjijijiijSXXnnnnTH0*为真时,为真时,Tijt(n-t),对于给定的显著性水平对于给定的显著性水平,|Tij| t1-/2(fE)时,拒绝原假设时,拒绝原假设H0*。Sas proc anovav data test;v do time=1 to 4

32、;v do factory=A, B , C , D;v do n=1 to 3;v input number; v output;v end;v end;v end;v cards;v72 74 69 61 61 65 62 65 70 85 76 61v67 52 62 60 55 59 64 65 64 67 72 60v57 66 72 72 43 43 63 66 72 56 75 92v57 56 78 60 63 58 61 79 68 73 86 71v;vrun;vproc print data=testv var time n factory number;vproc so

33、rt data=test;v by factory number;vrun;vproc means data=test mean std range sum;v by factory;v var number ;v output out=otest mean= std=sn range= sum=;v run;vproc anova ;v class factory;v model number=factory;v run;Sas proc anovavdata oneanova;vdo i=1 to 7;v do method=A, B , C , D,E;v input y ;v outp

34、ut;v end;vend;vcards;v20.024.916.017.525.2v16.821.320.118.226.6v17.922.617.320.226.9v21.230.220.917.729.3v23.929.922.019.130.4v26.822.526.818.429.7v22.420.720.816.525.2v;vrun;vproc print data=oneanova;vrun; vproc sort ;vby method;vrun;vproc anova ;v class method;v model y=method;vrun;Sas proc anovav

35、 data oneanova;vdo i=1 to 7;v do method=A, B , C , D,E;v input y ;v output;v end;vend;vcards;v20.024.916.017.525.2v16.821.320.118.226.6v17.922.617.320.226.9v21.230.220.917.729.3v23.929.922.019.130.4v26.822.526.818.429.7v22.420.720.816.525.2v;vrun;vproc print data=oneanova;vrun; vproc sort ;vby metho

36、d;vrun;vproc anova ;v class method;v model y=method;v means method/tukey cldiff ;v test h=method E=method;v run;Sas proc anovav双因素方差分析回归分析回归分析v一元线性回归一元线性回归v多元线性回归多元线性回归v逐步回归分析逐步回归分析 “ “回归回归”(Regression)一词源于)一词源于19世纪英国生物学家戈世纪英国生物学家戈尔登(尔登(Francis Galton,1822-1911)对人体遗传特征的实验研究。)对人体遗传特征的实验研究。他根据实验数据,发现个

37、子高的双亲其子女也较高,但平均地他根据实验数据,发现个子高的双亲其子女也较高,但平均地看来,却不比他们的双亲高;同样,个子矮的双亲其子女也较看来,却不比他们的双亲高;同样,个子矮的双亲其子女也较矮,平均地看,也不如他们的双亲矮。他把这种身材趋向于人矮,平均地看,也不如他们的双亲矮。他把这种身材趋向于人的平均高度的现象称为的平均高度的现象称为“回归回归”。并作为统计概念加以应用,。并作为统计概念加以应用,由此逐步形成有独特理论和方法体系的回归分析。由此逐步形成有独特理论和方法体系的回归分析。 8.28.2一元线性回归一元线性回归例例8.2 某饮料公司发现饮料的销售量与气温之间存在着相关关某饮料公

38、司发现饮料的销售量与气温之间存在着相关关系,即气温越高,人们对系,即气温越高,人们对饮料的需求量越大。下表记录了饮料饮料的需求量越大。下表记录了饮料销售量和气温的观察数据:销售量和气温的观察数据:一、基本概念一、基本概念气温气温x(度度)销量销量y(箱箱)30430213353552042490374702021081951727035400254801、回归问题:、回归问题: 利用不完全相同的利用不完全相同的x1,x2,xn对随机变量对随机变量Y作作n次次观测所得的数据观测所得的数据(x1,y1),(x2,y2),(xn,yn)来推断来推断Y的均值的均值 (x)的的问题称为求问题称为求Y关于

39、关于x的回归问题。的回归问题。散点图散点图01002003004005006000510152025303540气温销售量 图中各点虽然是散乱的,但大体分布在一条直线图中各点虽然是散乱的,但大体分布在一条直线附近,即附近,即饮料销售量与气温大致成线性关系。这条直线称为回饮料销售量与气温大致成线性关系。这条直线称为回归直线。归直线。因此考虑均值因此考虑均值 (x)为线性函数:为线性函数: 2、一元线性回归问题:一元线性回归问题: (x)= 0+ 1x二、最小二乘法与经验回归方程二、最小二乘法与经验回归方程 niiiyybaQ12)(),(min niiibxay12)(定义定义 满足满足则称分别

40、是则称分别是 0 0, , 1 1的最小二乘估计值,的最小二乘估计值,分别是分别是 0 0, , 1 1的最小二乘估计量,简称的最小二乘估计量,简称L.S.L.S.估计。估计。),.,(),.,(1110nnyyyy ),(min),.,(),.,(,1110baQyyyyQRbann ),.,(),.,(1110nnyyyy ),.,(),.,( 11nnYYbYYa1、( (经验经验) )回归方程:回归方程:xy10 01002003004005006000510152025303540气温销售量 0)(20)(211niiiiniiixbxaybQbxayaQ niiibxaybaQ12

41、)(),(min niiiniiyxbxaxnynbxnna112)( bxyallbxxxy)()(112 niiixyniixxyyxxlxxl,其其中中 101 xyllxxxy21212)(xnxxxlniiniixx其中续例续例8.2解解380,27yx02.1172774. 938074. 910129855101xyllxxxyxy74. 902.117气温气温x(度度)销量销量y(箱箱)30430213353552042490374702021081951727035400254809855)(1012)(112niiixyniixxyyxxlxxl,yxnyxyyxxlnii

42、iniiixy11)(气温气温x(度度)销量销量y(箱箱)3043040921335322355204584249052637470477202103128195195172702833540045825480361xy9.74117.022.2.残差:残差:个个残残差差为为第第则则次次拟拟合合值值,为为第第次次观观察察值值,为为第第称称iyyeiyiyiiiii 3.3.残差平方和:残差平方和: niiiniixyeQ121012)( niiixxyy121)()( xxnixyillyy 121122)( nixyilyy112)( 21212)(ynyyylniiniiyy记xyyyll

43、Q1 129950)(12niiyyyyl3 .33962985574. 91299501xyyyllQ续例续例8.2三、回归系数的假设检验和置信区间三、回归系数的假设检验和置信区间1 回归系数的假设检验:回归系数的假设检验:希望利用回归方程希望利用回归方程 对对Y作预测作预测H0: 1=0;H1: 1 0 xbay 如果拒绝如果拒绝H0: 1=0,则可以认为,则可以认为x对对Y有显著影响。有显著影响。niiyyU12)(记2 回归平方和:回归平方和:xxniilxx21121)(niixx121010)()(xyl1UQlQyylxyniiyy112)(3 离差平方和:离差平方和:(一一)回

44、归系数的假设检验回归系数的假设检验)2. 1()2( nFnQUF 给定显著性水平为给定显著性水平为 ,其拒绝域为:,其拒绝域为:)2, 1(1 nFF 当当H0为真时,为真时,4 F检验法检验法: H0: 1=0;H1: 1 0一元正态线性模型方差分析表一元正态线性模型方差分析表方差来源方差来源平方和平方和自由度自由度均方均方F比比回归回归1U残差残差n-2Q/n-2总和总和n-1)2/( nQUFxylU1 UlQyy yyl(二二)回归系数回归系数 1的置信区间的置信区间)2(11 ntlxx )(称称为为剩剩余余标标准准差差,有有令令22 nQ 2 1的的置信度为置信度为1- 的双侧置

45、信的双侧置信区间:区间:)(xxlnt )2(211 给定显著性水平为给定显著性水平为 =0.05,其拒绝域为,其拒绝域为:32. 5)8 , 1 (95. 0 FF续例续例8.1H0: 1=0;H1: 1 0一元正态线性模型方差分析表一元正态线性模型方差分析表方差来源方差来源平方和平方和自由度自由度均方均方F F比比回归回归95987.7195987.722.61残差残差33962.384245.29总和总和1299509拒绝拒绝H0,即,即气温气温x与饮料销售量与饮料销售量Y有显著的线性关系有显著的线性关系气温气温x(度度)销量销量y(箱箱)304304092133532235520458

46、4249052637470477202103128195195172702833540045825480361xy9.74117.0216.652nQ 1的的置信度为置信度为1- 0.95的双侧置信的双侧置信区间:区间:xxlnt)2(2111012156.653060.274.9)46.14,02.5(四、预测四、预测若若x对对Y有显著的线性关系,当有显著的线性关系,当x=x0时,预测时,预测Y=Y0。给定置信度为给定置信度为1- ,Y的预测的预测区间:区间:)(xxlxxnntY20210)(11)2( 由由( (经验经验) )回归方程:回归方程:0100 xY 续例续例8.1 当气温为当

47、气温为35度,即度,即x0=35时,求时,求Y的置信度为的置信度为0.95的预的预测区间测区间4583574. 902.1170yxxlxxnnt2021)(11)2(Y的置信度为的置信度为0.95的预测区间为的预测区间为(296,620)1012)2735(101116.65)8(2975. 0t06.162277.703060. 2多元回归分析v在许多经济问题中,一元线性回归只不过是回归分析中的一种特例,它通常是对影响某种经济现象的许多因素进行了简化考虑的结果。v若某公司管理人员要预测来年该公司的销售额y时,研究认为影响销售额的因素不只是广告宣传费x1,还有个人可支配收入x2,价格x3,研

48、究与发展费用x4,各种投资x5,销售费用x6.v因此我们需要进一步讨论多元回归问题。多元回归分析v第一节 多元线性回归v第二节 可化为多元线性回归的问题v第三节 曲线回归v第四节 逐步回归v第五节 岭回归v推荐阅读第一节 多元线性回归v Yi= b0+b1x1i+b2x2i+bpxpi+i Y1=b0+b1x11+b2x21+bpxp1+ 1 Y2=b0+b1x12+b2x22+bpxp2+ 2 Yn=b0+b1x1n+b2x2n+bpxpn+ n v令 y1 1 x11 x21 xp1vY= y2 x= 1 x12 x22 xp2 yn 1 x1n x2n xpn b0 1 b1 2vB=

49、e= bp nv则 Y=XB+ev一、多元线性回归模型的基本假定v解释变量x1,x2,xp是确定性变量,不是随机变量,而且解释变量之间互不相关v随机误差项具有零均值和同方差 E( i)=0 var( i)=E( i -E( i)2=E( i)2=2v随机误差项在不同样本点之间是相互独立的,不存在序列相关 cov( i, j)=0 ij i,j=1,2,n cov( i, j)=E( i -E( i)( j -E( j) =E( i j) =E( i )E( j) =0 v随机误差项与解释变量之间不相关 cov(xi, i)=0v随机误差项服从零均值,同方差的正态分布 iN(0,2)v二、建立回

50、归方程v设v令 即pip2i21i10pip2i21i10ixbxbxbbxbxbxbb Yiiiiyyy02bQQi020202110111011100pipipiipipipiipipiixxbxbbybQxxbxbbybQxbxbbybQ0202021piiiiixx0001piiiiixx0002211112211121pnnppnnnxxxxxx000111212111211npnppnxxxxxx0exeXXBXYXeXBYYXXXBYXXBX1v三、多元线性回归模型的建模方法v1.打开文件或新建文件v2.Analyze regression liner 3.建模方法 (1)ent

51、er:强迫进入法 (2)stepwise:逐步选择法 (3)remove:强迫消除法 (4)backward:向后剔除法 (5)forward:向前引入法v 回归统计量 (1)estimates:显示回归系数及相关的指标 (2)confidence intervals:显示未标准化回归系数的置信区间 (3)covariance matrix: 未标准化回归系数的方差协方差矩阵 (4)model fit:模型检验v 回归统计量 (5)R squared change (6)descriptive:显示变量的均值、标准差等 (7)Part and partial correlations: (8)

52、collinearity diagnostics:共线性诊断 (9)Durbon_waston:D.w.检验统计量举例(一)v根据我国某地区乡镇企业总产值、从业劳动者人数和固定资产原值的历年资料,求回归方程。(总产值- y,从业劳动者人数-x1,固定资产原值-x2)v(数据见spssex/例子1))555. 5()232. 7()326. 8(2207. 11544. 0546.1353xxyC Co oe ef ff fi ic ci ie en nt ts sa a-1353.546162.576-8.326.001.544.075.5777.232.0021.207.217.4435.5

53、55.005(Constant)X1X2Model1BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable: Ya. 举例(二)v卫生陶瓷是我国住宅建筑、饭店、宾馆、医疗卫生、体育、办公设施等建筑必不可少的卫生设备。合理地发展卫生陶瓷生产是国民经济的需要。卫生陶瓷产量y与城镇住宅建筑面积x1,医疗卫生机构建筑面积x2,办公室建筑面积x3有关。试根据历史资料建立回归方程。v(数据见spssex/例子2) Y=0.488+0.576x1+4.769x2-2.145x3 (4.2

54、45) (2.404) (-2.111)CoefficientsCoefficientsa a.4882.218.220.829.576.136.8034.245.0014.7691.983.4702.404.029-2.1451.016-.416-2.111.051(Constant)x1x2x3Model1BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable: ya. 举例(三)v在研究国家财政收入时,我们把财政收入按收入形式分为各项税收收入、企业收入、债务收入、国家

55、能源交通重点建设基金收入、基本建设贷款归还收入、国家预算调节基金收入、其他收入等。为了建立国家财政收入回归模型,我们以财政收入y为因变量。自变量如下:x1工业总产值,x2农业总产值,x3建筑业总产值,x4人口数,x5社会商品零售总额,x6受灾面积v(数据见spssex/例子3) Y=-13534.1+0.209x1-0.06x2+0.763x3+0.141x4-0.855x5+0.227x6 (3.292) (-0.416) (2.341) (2.703) (-2.932) (2.595)C Co oe ef ff fi ic ci ie en nt ts sa a-13534.15138.9

56、20-2.634.039.209.0631.8043.292.017-.060.144-.149-.416.692.763.326.9132.341.058.141.0521.0622.703.035-.855.292-2.644-2.932.026.227.088.1822.595.041(Constant)x1x2x3x4x5x6Model1BStd. ErrorUnstandardizedCoefficientsBetaStandardizedCoefficientstSig.Dependent Variable: ya. v五、回归方程的效果的检验v方程显著性检验v参数显著性检验v拟合

57、优度检验(复相关系数、偏相关系数)v对假设理论的检验v链接v例2中,方差分析表为: ESSRSSTSSyyyyyyxebxebebxbxbbeyeyeyyeyyyyyyyyyyyyyyyyyyyyiiiiipiipiiipipiiiiiiiiiiiiiiiiiiiiiii22211011022202yyyyyA AN NO OV VA Ab b803.8163267.93920.939.000a204.7341612.7961008.55019RegressionResidualTotalModel1Sum ofSquaresdfMean SquareFSig.Predictors: (Con

58、stant), x3, x1, x2a. Dependent Variable: yb. v1.方程显著性检验(F检验)vF检验是以方差分析为基础,对回归总体线性关系是否显著的一种假设检验,是解释模型中被解释变量与所有解释变量之间的线性关系在总体上是否显著的方法v利用F统计量进行总体线性显著性检验的步骤如下: (1)提出关于P个总体参数的假设 H0:b0=b1=b2=bp=0 (2)构造统计量 (3)检验 给定显著性水平,查F分布表 若FF,拒绝H0,表明回归总体有显著性关系. 若Ft /2,说明拒绝原假设若tregression-linearvPlot子对话框中选Histogram或p-p图

59、v返回残差序列的随机性分析:v可以绘制残差序列和对应的预测值序列的散点图。如果残差序列是随机的,那么残差序列应与预测值序列无关,残差序列点将随机地分布在经过零的一条直线上下。v在线性回归Plots对话框中的源变量表中,选择SRESID(学生氏残差)做Y轴,选ZPRED(标准化预测值)做X轴v返回残差序列的独立性分析:v分析残差序列是否存在后期值与前期值相关的现象。vD.W检验v返回样本奇异值的诊断:v样本奇异值是样本数据中那些远离均值的样本数据点。它们会对回归方程的拟合产生较大偏差影响。v一般认为,如果某样本点对应的标准化残差的值超出了-3+3的范围,就可以判定该样本数据为奇异值。vAnaly

60、ze-regression-statistics-case diagnosticsv返回异方差诊断:v线性回归模型要求残差序列服从等方差的正态分布v一般通过绘制SRESID与因变量预测值的散点图或计算SRESID和因变量预测值间的相关系数。v如果残差序列和预测值的平方根成正比例变化,可以对因变量作开方处理;如果残差序列与预测值成比例变化,可以对因变量取对数;如果残差序列与预测值的平方成比例的变化,可以对因变量求倒数。v还可以用WLS法消除异方差。v返回v七、预测和控制v所谓预测就是给定解释变量x样本外的某一特征值x0=(1,x10,x20,xp0),对因变量的值y0以及E(y0)进行估计。v1

61、、y0的点预测:v2、y0的(1-)的预测区间:000bxby,020200yyStyStyv例例5 继例1,预测从业劳动者为3000万人,固定资产原值为400亿元时该地区的总产值,并给出=0.05时的预测区间.v返回v例6 中国民航客运量的回归模型.为了研究我国民航客运量的变化趋势及成因,我们以民航客运量作为因变量y,以国民收入、消费额、铁路客运量、民航航线里程、来华旅游入境人数为影响民航客运量的主要因素。Y-民航客运量(万人),x1-国民收入(亿元),x2-消费额(亿元),x3-铁路客运量(万人),x4-民航航线里程(万公里),x5-来华旅游入境人数第二节 可化为多元线性回归的问题在自然科

62、学中,y关于x 的数量关系多数都不是简单的线性关系,而是各种各样的非线性关系,于是我们常会遇到非线性回归模型,在非线性回归模型中,一种类型是可以通过变量变换化为线性模型,然后按线性模型加以解决;另一种类型的非线性模型是用任何变量变换办法都不能或不方便直接化为线性模型求得参数的估计值。v多项式函数vY=0+ 1x + 2x2+ + pxpv设i=xiv则多项式化为: Y= 0+ 1 1 + 2 2 + + p pv多元幂函数 y=x1 1 x2 2 xp p lny=ln + 1ln x1+ pln xp 令z= lny, 0= ln ,i= ln xi z= 0 + 1 1 + 2 2+ +

63、p pv指数函数 y=ae ixi y=a+ 1x1 + 2x2+ + pxp z= y, 0= a,则 z= 0 + 1x1 + 2x2+ + pxpv多元对数函数 y=a+ 1x1 + 2x2+ pxp 设i= xi, 则 y=a+ 1 1 + 2 2 + p p v指数函数与幂函数的积 y=aexp ixi xibi y=a+ 1x1 + 2x2+ + pxp +b1x1 +b2x2+ +bpxp 令z= y, 0= a,i= xi z= 0 + 1x1 + 2x2+ + pxp +b1 1 +b2 2+ +bp pv例7 某企业在15年中每年的年产量x和总成本y,试建立y对x,x2和x

64、3的多项式回归方程.(数据见spssex/例子7)v如果自变量相邻数值之间大小间隔相等,而且相邻样本点对应的因变量y的二次差分大致相同,则该总体可配合二次多项式函数v如果是三次差分大致相同,则可配合三次多项式函数v例8 根据某地1985-1993年间农产品收购额,建立回归方程.(数据见spssex/例子8)0246810 x200.00300.00400.00500.00yMODEL: MOD_2.Independent: x Dependent Mth Rsq d.f. F Sigf b0 b1 b2 y QUA 1.000 6 202698 .000 178.095 5.2238 3.88

65、10v返回v例9 某制造厂表面处理车间试验将铬后污水同电解污泥混合,使之生成无毒溶液,效果很好.但实际排出污水的浓度不完全相同,而且一定浓度的定量铬后污水只有同定量的电解污泥混合后,才能反应完全.现通过试验,找出铬后污水用量与电解污泥用量之比对于铬后污水浓度之间的关系.(spssex/例子9)第三节 曲线回归vAnalyze-regression-curve estimationvLinear: y=b0+b1xvQuadratic: y= b0+b1x+b2x2vCompound: y=b0b1xvGrowth: y=e(b0+b1x)vLogarithmic: y= b0+b1lnxvCu

66、bic: y= b0+b1x+b2x2+b3x3vS: y=e(b0+b1/x)vExponential: y=b0eb1xvInverse: y=b0+b1/xvPower: y=b0 xb1vLogistic: y=1/(1/u+b0b1x)v返回第四节 逐步回归v在多元线性回归中,最难的是如何选择自变量的问题,如果自变量选的太少,则自变量对Y的决定系数太小,导致过大的偏差,如果把与Y有关的自变量都选入是不可能的,一般来讲,选的自变量愈多,ESS愈大,然而多个自变量中有相当一部分对Y影响不显著,反而会因自由度的减少而增大了误差。另外,多个自变量间的相关会给回归方程的实际解释上造成麻烦,即多重共线性的影响。因此我们提出最优方程的概念,要求进入回归方程的自变量都是显著的,未进入回归方程的自变量都是不显著的。v一、“最优”回归方程的选择v1.回归方程中包含尽量多的信息v2.回归方程中包含尽量少的变量v方法:v逐步剔除的回归分析方法v逐步引入的回归分析方法v“有进有出”的回归分析方法(逐步回归分析方法)逐步剔除法(backward)v1、用全部变量建立一个回归方程v2、对每个变量进行检验,

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!