统计学多元回归分析方法

上传人：z****2 文档编号：180086771 上传时间：2023-01-04 格式：DOCX 页数：27 大小：124.81KB

收藏版权申诉举报下载

第1页 / 共27页

第2页 / 共27页

第3页 / 共27页

下载文档到电脑，查找使用更方便

30 积分

下载资源

资源描述：

《统计学多元回归分析方法》由会员分享，可在线阅读，更多相关《统计学多元回归分析方法（27页珍藏版）》请在装配图网上搜索。

1、在数量分析中，经常会看到变量与变量之间存在着一定的联系。要了解变量之间如何发生相互影响的，就需要利用相关分析和回归分析。回归分析的主要类型：一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析以及逻辑回归分析等。1.1回归分析基本概念相关分析和回归分析都是研究变量间关系的统计学课题。在应用中，两种分析方法经常相互结合和渗透，但它们研究的侧重点和应用面不同。在回归分析中，变量y称为因变量，处于被解释的特殊地位；而在相关分析中，变量y与变量x处于平等的地位，研究变量y与变量x的密切程度和研究变量x与变量y的密切程度是一样的。在回归分析

2、中，因变量y是随机变量，自变量x可以是随机变量，也可以是非随机的确定变量；而在相关分析中，变量x和变量y都是随机变量。相关分析是测定变量之间的关系密切程度，所使用的工具是相关系数；而回归分析则是侧重于考察变量之间的数量变化规律，并通过一定的数学表达式来描述变量之间的关系，进而确定一个或者几个变量的变化对另一个特定变量的影响程度。具体地说，回归分析主要解决以下几方面的问题。（1）通过分析大量的样本数据，确定变量之间的数学关系式。（2）对所确定的数学关系式的可信程度进行各种统计检验，并区分出对某一特定变量影响较为显著的变量和影响不显著的变量。（3）利用所确定的数学关系式，根据一个或几个变

3、量的值来预测或控制另一个特定变量的取值，并给出这种预测或控制的精确度。作为处理变量之间关系的一种统计方法和技术，回归分析的基本思想和方法以及“回归（Regression）”名称的由来都要归功于英国统计学FGalton（1822 1911）。在实际中，根据变量的个数、变量的类型以及变量之间的相关关系，回归分析通常分为一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析和逻辑回归分析等类型。1.2多元线性回归121多元线性回归的定义一元线性回归分析是在排除其他影响因素或假定其他影响因素确定的条件下，分析某一个因素（自变量）是如何影响另一

4、事物（因变量）的过程，所进行的分析是比较理想化的。其实，在现实社会生活中，任何一个事物（因变量）总是受到其他多种事物（多个自变量）的影响。一元线性回归分析讨论的回归问题只涉及了一个自变量，但在实际问题中，影响因变量的因素往往有多个。例如，商品的需求除了受自身价格的影响外，还要受到消费者收入、其他商品的价格、消费者偏好等因素的影响；影响水果产量的外界因素有平均气温、平均日照时数、平均湿度等。因此，在许多场合，仅仅考虑单个变量是不够的，还需要就一个因变量与多个自变量的联系来进行考察，才能获得比较满意的结果。这就产生了测定多因素之间相关关系的问题。研究在线性相关条件下，两个或两个以上自

5、变量对一个因变量的数量变化关系，称为多元线性回归分析，表现这一数量关系的数学公式，称为多元线性回归模型。多元线性回归模型是一元线性回归模型的扩展，其基本原理与一元线性回归模型类似，只是在计算上更为复杂，一般需借助计算机来完成。122多元线性回归模型1.2.2.1元线性回归模型及其矩阵表示设y是一个可观测的随机变量，它受到p个非随机因索x , x ,，x和随机12p因素e的影响，若y与x , x ,，x有如下线性关系：12py =卩+卩 x + + 卩 x + e(1.1)011p p其中0 , 0，0是p +1个未知参数，e是不可测的随机误差，且通常假定01pe N (0, c 2).我

6、们称式(1.1)为多元线性回归模型.称y为被解释变量(因变量)，x (i = 1,2,p)为解释变量(自变量).i称E(y) = 0 +0 x + +卩 x(1.2)011p p为理论回归方程.对于一个实际问题，要建立多元回归方程，首先要估计出未知参数0 , B， 0 1，0，为此我们要进行n次独立观测，得到n组样本数据(x ,x，,x ;y )， pi1 i 2ip ii = 1,2，,n，他们满足式(1.1)，即有y = 0+0 x + 0 x + + 0 x + e10111212p 1 p1y = 0 + 0 x + 0 x + + 0 x + eV 201 212 22p 2 p2

7、(1.3)y = 0 + 0 x + 0 x + + 0 x + eJ n01 n12 n 2p np n其中e ,e，,e相互独立且都服从N(0,c 2).12n式(1.3)又可表示成矩阵形式：Y = X0+e(1.4)0= (00, 01,0 p )T，e= (e1,e 2,e n)T，这里，Y = (y , y,y )t，12neN (0,c21 )，i为n阶单位矩阵.nnn1 x111 xX = .21x12x221 x xn1 n 2x1 px2 pxnpnx(p +1)阶矩阵X称为资料矩阵或设计矩阵，并假设它是列满秩的，即rank (X) = p +1.由模型(1.3)以及多元正态

8、分布的性质可知，Y仍服从n维正态分布，它的期望向量为X0，方差和协方差阵为b 21，即YN (邓Q2I ).nnn1.2.2.2参数的最小二乘估计及其表示1.参数的最小二乘估计与一元线性回归时的一样，多元线性回归方程中的未知参数卩，卩，,卩仍然 01p可用最小二乘法来估计即我们选择卩=(卩0,即,卩p)T使误差平方和Q(卩)2 工 8 2 =芦T芦=(Y - X0) T (Y - X0)ii=1=工(y - 0 - 0 x - 0 x 0 x )2i01i12 i 2p ipi=1达到最小.由于Q (0)是关于0,0，,0的非负二次函数，因而必定存在最小值，利用微 01p积分的极值求法，得哮

9、2 = -2工(y -0 -0x -0x -0 x ) = 060i0 1 i1 2 i 2p ip八 0i=16016Q(0) =-2工(y -0 -0 x -0 x 0 x )x = 0i 0 1 i12 i 2p ip i1i=160k6Q(0) = -2工(y -0 -0 x -0 x 0 x )x = 0i 01 i12 i 2p ip iki=16Q(0) = -2工(y -0 -0 x -0 x 0 x )x = 060i01 i12 i 2p ip ippi=1这里0 (i = 0,1，,p)是0 (i = 0,1,p)的最小二乘估计上述对Q(0)求偏导，求得 ii正规方程组的

10、过程可用矩阵代数运算进行，得到正规方程组的矩阵表示：Xt (Y - X0) = 0移项得X TX0 = XtY(1.5)称此方程组为正规方程组.依据假定R( X) = p +1，所以R( XtX ) = R( X ) = p +1 .故(XtX )-1存在.解正规方程组(1.5 )得(1.6)0 = ( XtX )-1 XtY称y P + p x + p x p x为经验回归方程.01122p p2 .误差方差a 2的估计将自变量的各组观测值代入回归方程，可得因变量的估计量(拟合值)为Y(y, y，,y)2 xp12p向量 e Y- Y Y-Xp I -X(XtX)-1 XTY (I -H

11、)Y 称为残差向量，其中nnH X(XtX)-iXt为n阶对称幕等矩阵，I为n阶单位阵.n称数 eTe Yt (I H )Y YtY p tXtY 为残差平方和(Error Sum of Squares,简写为nSSE).由于 E(Y) Xp 且(I H ) X 0，贝InE (e Te) Etre t (I H 疋 tr( I H) E (庞 t )nn a 2trI X(XtX)-iXtn a 2n tr( XtX )-1 XtX a 2(n p 1)1_e e从而a 2 eTe为a 2的一个无偏估计.n p 13.估计量的性质性质1 P为卩的线性无偏估计，且D(P) Var(P) a2(

12、XtX)-1.证由于P (XtX)-1 XtY是Y的线性函数，故其为线性估计，且有E(P) (XtX)-1 XtE(Y) - p - (XtX)-1 XtX 卩D( P ) ( XtX )-1X tD(Y ) Xt ( XtX )-1 a 2( XtX )-1这一性质说明P为卩的线性无偏估计，又由于(XtX)-1 一般为非对角阵，故P的各个分量间一般是相关的.性质 2 E(e) O, D(e) a 2(I H).证由于e (I - H)Y，故 E(e) (I - H)E(Y) (I - H)X0 OD(e)二(I - H)D(Y)(I - H)t 二 b 2(I - H)这一性质表明残差

13、向量的各个分量间一般也是相关的.性质 3 Cov(乙 0 )二 O .证Cov(e, 0)二 Cov(I H)Y, (XtX)-1 XtY)二(I H)D(Y)X(XtX)-i 二 O .这一性质表明残差e与卩的最小二乘估计0是不相关的，又由于残差平方和sse是e的函数，故它与0也不相关.在正态假定下不相关与独立等价，因而SSE与0独立.性质 4E(SSE)二(n p 1)b 2 .证明略性质 5 (G auss-Markov 定理)在假定 E(Y) = X0 , D(Y)21 时，0 的任一n线性函数勿0的最小方差线性无偏估计(BLUE )为a T 0,其中是任一 p +1维向量，0是0的

14、最小二乘估计.性质6 当Y N (X0Q2I)，有以下几点结论：n(1) 0 N(0Q2(XtX)-1)；(2) SSE与0独立；(3) SSE x 2(n- p-1).性质5、性质6的证明参见周纪芗回归分析或方开泰实用回归分析.1.2.3回归方程和回归系数的显著性检验给定因变量y与x , x ,，x的n组观测值，利用前述方法确定线性回归方程是否有12p意义，还有待于显著性检验.下面分别介绍回归方程显著性的F检验和回归系数的t检验, 同时介绍衡量回归拟合程度的拟合优度检验1.2.3.1回归方程显著性的检验对多元线性回归方程作显著性检验就是要看自变量x , x ,，x从整体上对12p随机变量y是

15、否有明显的影响，即检验假设：h :=B= 0012pH :卩丰 0,1 i pi i如果H被接受，则表明y与x , x , , x之间不存在线性关系.为了说明如何进行 012p检验，我们首先建立方差分析表.1.离差平方和的分解我们知道：观测值y , y ,，y之所以有差异，是由于下述两个原因引起的，一 12n是y与x , x ,，x之间确有线性关系时，由于x , x ,，x取值的不同而引起12p12py (i二1,2,., n)值的变化；另一方面是除去y与x , x , , x的线性关系以外的i12p因素，如x , x ,x对y的非线性影响以及随机因素的影响等记 12py = 1工 y，则数据

16、的总离差平方和(Total Sum of Squares) n ii=1SST = X (y -刃2(1.7)ii=1反映了数据的波动性的大小.残差平方和SST =工(y -y )2(1.8)i ii=1反映了除去y与x , x ,x之间的线性关系以外的因素引起的数据 12py , y ,，y的波动.若sse = 0，则每个观测值可由线性关系精确拟合，sse越大, 12n观测值和线性拟合值间的偏差也越大.回归平方和(Regression Sum of Squres)SSR =工(y - y)2(1.9)ii=1由于可证明-Hy = y，故ssr反映了线性拟合值与它们的平均值的宗偏 n ：i=1

17、差，即由变量x , x , , x的变化引起y , y , , y的波动.若SSR = 0，12p12n则每一个拟合值均相当，即不随x , x ,，x而变化，这意味着 i12p卩二卩=.=卩=0.利用代数运算和正规方程组(4.8)可以证明：12p工(y - y)2 =工(y - y)2 + 工(y - y)2iii ii=1i=1i=1即SST = SSR + SSE(1.10)因此，ssr越大，说明由线性回归关系所描述的y , y ,，y的波动性的比例就 12n越大即y与X , X ,，x的线性关系就越显著.线性模型的拟合效果越好.12p另外，通过矩阵运算可以证明SST、SSE、SSR，有如

18、下形式的矩阵表示：f11SST = YtY YtJY = Yt (I J )Ynn n SSE = eTe = YtY-pXtY = Yt(I -H)Y(1.11)nSSR = pXtY -1 YtJY = Yt(H -1J)Y、nn其中J表示一个元素全为1的n阶方阵.2.自由度的分解对应于SST的分解，其自由度也有相应的分解，这里的自由度是指平方中独立变化项的数目.在SST中，由于有一个关系式工(y -刃=0，即ii=1y - y(i = 1,2,n)彼此并不是独立变化的，故其自由度为n-1.i可以证明，SSE的自由度为n- p -1，SSR的自由度为p，因此对应于SST的分解，也有自由

19、度的分解关系n 一 1 = (n 一 p 一 1) + p(1.12)3.方差分析表基于以上的SST和自由度的分解，可以建立方差分析表1.1方差来源平方和自由度均方差F值SSR1Yt (H - J)YnpMSR = SSRp厂 MSR F =MSESSEYt (I - H )Yn - p -1MSE= SSEn - p -1SST1Yt (I - J)Ynn -11.2.3.2线性回归方程的显著性检验与一元线性回归时一样，可以用F统计量检验回归方程的显著性，也可以用 P值法(P-Value)作检验.F统计量是(1.13)MSR _ SSR / pMSE _ SSE /(n _ p _ 1)当H

20、为真时，FF(p, n - p -1)，给定显著性水平a，查F分布表得临界值0F (p, n- p- 1),计算F的观测值F，若F F (p,n-p-1)时，这种线性关系是显著的利用P值法作显著性检验性检验 0 a十分方便：这里的P值是P(F F )，表示第一、第二自由度分别为p，n - p -10的F变量取值大于F的概率，利用计算机很容易计算出这个概率，很多统计软0件(如SPSS)都给出了检验的P值，这省去了查分布表的麻烦，对于给定的显著性水平a，若p a，则拒绝H，反之，接受H 0 0如果检验的结果是接受原假设H，那意味着什么呢？这时候表明，与模型 0的误差相比，自变量对因变量的影响是不

21、重要的.这可能有两种情况.其一是模型的各种误差太大，即使回归自变量对因变量y有一定的影响，但相比于误差也不算大.对于这种情况，我们要想办法缩小误差，比如检查是否漏掉了重要的自变量，或检查某些自变量与y是否有非线性关系等；其二是自变量对y的影响确实很小，这时建立y与诸自变量的回归方程没有实际意义.1.2.3.3回归系数的显著性检验回归方程通过了显著性检验并不意味着每个自变量x (i _ 1,2,p)都对y有显著地影响，可i能其中的某个或某些自变量对y的影响并不显著。我们自然希望从回归方程中剔除那些对y 的影响不显著的自变量，从而建立一个较为简单有效地回归方程.这就需要对每一个自变量作考察

22、.显然，若某个自变量x对y无影响，那么在线性模型中，它的系数0应为零.因ii此检验x的影响是否显著等价于检验假设iH : 0 _ 0, H :卩工 00 i1 i由性质 6 可知： 0 N(0Q2(XX)-1)若记p +1阶方阵C = (c ) = (XX)-1，贝I有1于是当H成立时，有0U N(0,1)5Cii因为SSE x2(n - p -1)，且与相互独立，根据t分布的定义，有G 2l= t(n - p -1)Il孚，对给定的显著性水平。，当小-p -1)时，我们拒绝*反之,则接受H .在SPSS软件的输出结果中，可以直接从p值看出检验结果. 0对于估计量P，我们还想了解它与卩的接近程

23、度如何.这就需要确定卩的置信区间.由lll于P -卩于肓II置信区间为. -P.耳亠、 t(n p 1)，因而有p二_ t& (n p 1) = 1 -a ，即得卩.的置信度为1 -a的目“a2lll(P -1 趴:c , +1 趴:c )all l a2 21.2.3.4因变量的预测建立回归方程，除了解自变量与因变量之间的相依关系之外，还有一项重要的应用就是预测, 即对给定的自变量的值，预测对应的因变量的值.对于线性回归模型y = P +卩 x + + 卩 x + s011p p当我们要预测x0 = (1 x ,x，x )所对应的因变量值y时，我们可以用他的点预测值001020p0 t (n

24、 - p -1)y = +P X +直X，但我们一般更感兴趣的是y的区间估计.可以证明: 00101p 0 p0& J1 + 云(xX)-iX0 0因而对给定的a，有o - yot (n-p -1) = 1 -a a由此可得y的置信度为1 -a的预测区间为0(9 t (n p 1)B.-1 + 云(XX)-i X , 9 +1 (n p 1)S1 + 云(XX)-iX )0 & 2 0 0 0 & 2 0 01.2.3.5拟合优度拟合优度用于检验模型对样本观测值的拟合程度.在前面的方差分析中，我们已经指出，在总离差平方和中，若回归平方和占的比例越大，则说明拟合效果越好.于是，就用回归平方和

25、与总离差平方和的比例作为评判一个模型拟合优度的标准，称为样本决定系数(coefficient of determination)(或称为复相关系数)，记为 R2.R 2 二 SIR二 1IIE -SST由R2的意义看来，其他越接近于1,意味着模型的拟合优度越高。于是，如果在模型中增加一个自变量，R2的值也会随之增加，这会给人一种错觉：要想模型拟合效果好，就得尽可能多引进自变量.为了防止这种倾向，人们考虑到，增加自变量必定使得自由度减少,于是又定义了引入自由度的修正的复相关系数，记为时R 2 = 1 MIEa MSTSSE_ /(n p 1)SST(n 1)在实际应用中，R2达到多大才算通过

26、了拟合优度检验，没有绝对的标准，要看具体情况而定。模型拟合优度并不是判断模型质量的唯一标准，有时为了追求模型的实际意义，可以在一定程度上放宽对拟合优度的要求.1.2.3.6数据的中心化和标准化在多元线性回归分析中，所涉及道德诸多自变量往往量纲不同，甚至差别很大，这给利用回归方程分析实际问题带来一定困难.为此，我们可以将数据进行中心化和标准化处理，然后再建立回归方程.数据的中心化处理方法是：记X、jy为各个自变量与因变量的样本中心值，令X _ x X , i _ 1,2,n; j _ 1,2,，pij ij jy，_ y y, i _ 1,2,ni i 如果利用没有中心化处理之前的数据建

27、立的多元回归方程为八八八八y =卩 + P X + P x H卩 X(4.19)01122p p那么经过中心化处理的数据建立的回归方程即为y _ p + p Xf + p X H p X(4.20)01122p p这一点不难理解：数据的中心化处理相当于将坐标原点移至样本中心，而坐标系的平移不改变直线的斜率，只改变了截距.数据的标准化处理公式是：x *yi*i = 1,2,n,i 二 1,2，,n; j 二 1,2，,p标准化的数据建立的回归方程记为(4.21)y * =卩 * x * + 3 * x * p * x *1122p p容易验证方程(4.21)与(4.19)的系数之间存在关系式p

28、p , j = 1,2,pj1.2.4残差分析在前面讨论线性回归问题时，我们做了回归模型的线性假定、误差的正态性和同方差性假定等，而实际问题中所得的数据是否符合这些假定，还有待于检验.在本节和下一节中，将要解决两个问题：首先是如何验证这些假定是否得到满足？如果符合假定的话，那么参数的估计和有关的假设检验都是可靠的；如果假定不满足，我们要解决另一个重要的问题，即我们需采取怎样的措施呢？在对模型的假定进行诊断时，残差分析(又称回归诊断)起着十分重要的作用.残差向量e = y-y = (I -H)y，这里H = X(XtX)-1 Xt，前面已经介绍过残n差的基本性质，如E(e) = 0,Va

29、r(e) = (I -H)q 2,Cov(.y,e) = O等,由于实际问题中,n真正的观测误差 = y - E(y ) (i = 1,2,n)我们并不知道，但如果模型正确，则i ii可将e近似看作为，此时残差e应该能够大致反映误差的特性因而我们可iiii以利用残差的特点来考察模型的可靠性.通过对残差进行分析，可以在一定程度上回答下列问题：(1) 回归函数线性假定的可行性；(2) 误差项的等方差假设的合理性；(3) 误差项独立性假设的合理性；(4) 误差项是否符合正态分布；(5) 观测值中是否存在异常值；(6) 是否在模型中遗漏了某些重要的自变量.做残差分析时我们经常借助于残差图，它是以残差e

30、为纵坐标，以其他指定i的量为横坐标做出的散点图常用的横坐标有：y、x以及观测时间或序号.由残差的分布可知，一般来讲e,e，,e之间是相关的，且它们的方差不等,12n从而直接用e作比较就带来一定的麻烦，为此，人们引入标准化残差和学生化残i差概念，以改进普通残差的性质分别定义如下：标准化残差：ZRE = e ，i厂学生化残差：SRE二e/、尸 (其中h是矩阵H的第i个对角元素)i iiiii陈希孺等人曾指出，SRE,SRE,SRE近似独立，且近似服从N(0,1)，即12n可以近似认为SRE ,SRE，,SRE是来自N(0,l)的随机子样.12n1.2.4.1回归函数线性的诊断诊断回归函数是否为自变

31、量x ,x,x的线性函数时，主要采用残差图y , e 12p如果在这个散点图中，点(y ,e )大致在e二0附近随机变化(即无明显的趋势性), i i并在变化幅度不大的水平带状区域内，如图4.2 (a)所示，则可以认为回归函数的线性假定基本上是合理的如果这个散点图类似于图4.2(b)，则表明回归函数并非线性形状，应该包含某些变量的高次项或交叉乘积项，或者考虑是否可先将y和某些自变量做变换，再建立相应的线性回归模型.(b)图4.2 回归散点图1.2.4.2误差方差齐性(homogeneity)的检验我们可以采用残差图y -e来判断误差方差是否齐性，若残差图类似于图4.2 i(a)，则可以认

32、为方差齐性的假设大致是成立的如果残差图类似于图4.3，则方差齐性的假定不成立图4.3 (a)、(b)分别表示误差方差随自变量的变化而增加或减少如果方差齐性的假定不能满足，通常有三种可以采用的处理方法一是采用加权最小二乘法估计模型参数；二是Box-Cox变换法；这种情况的处理没有一般的方法，详细过程请参阅近代回归分析(陈希孺等，1987) 下面我们分一元和多元的情况简要介绍加权最小二乘法.对于一元线性回归方程来说，普通最小二乘法的离差平方和为(b)图4.3误差方差随自变量变化图Q（卩，卩）（y -卩-卩 x ）201i 01 ii=1加权最小二乘法是在平方和中加入一个适当的权数3，以消

33、除方差非齐性的影i响，即Q （卩,卩）=工（y 卩卩x ）2（4.22）301i i 01 ii=1这里观测值的权数应该是误差项方差的倒数，即3 = 1,P2 在实际问题的研ii究中，b 2通常是未知的，但是，当误差项方差随自变量水平以系统的形式变化i时，我们可以利用这种关系例如，若b2 = kx2，其中k为比例系数，由于这个ii系数在参数估计中可以消除，所以我们取权数为3 = 1X2.如果某个实际问题的ii误差方差与X的幕函数xm成比例，其中，m为待定参数，此时可取权数为3 = 1/ Xm，利用SPSS软件包可以确定幕函数的最优取值在打开一个数据文件i i之后，依次点选StatisticSf

34、 RegressionWeight Estimation进入估计权函数对话框，默认的幕指数m的取值为m = -2,-1.5,-1,-0.5,0,0.5,1,1.5,2 ,这个默认值可以更改.先将自变量x与因变量y选入各自的变量框，再把x选入Weight变量框，可得最优幕指数值.多元线性回归模型的加权离差平方和为Q = 3 （y -卩-卩 x卩 x ）2（4.23）3i i 01 订P ipi=1多元线性回归模型中有多个自变量，通常取权函数3为某个自变量x （i = 1,2,p）的幕函数，即取3 = xm，在x ,x，,x这p个自变量中，应该取ii12p哪一个自变量呢？这只需要计算每一个自变

35、量与普通残差的等级相关系数(Spearman相关系数)，选取等级相关系数最大的那个自变量构造权函数.然后利用与一元回归情形相同的方法确定最优的幕指数m .1.2.4.3误差独立性的检验在回归模型中，我们总是坚定误差项是不相关的，即Cov(S )二0,i丰j .如i j果某个回归模型的误差项不满足这一点，则我们称其存在自相关(或序列相关) 现象.当一个回归模型的随机误差项存在自相关时，会产生以下不良的后果：(1) 参数的估计量不再具有最小方差线性无偏性；(2) 变量的显著性检验失去意义；(3) 模型的预测失效.自相关性的检验方法有多种，目前比较常用的有Durbin-Watson，但它仅适用于

36、一阶自相关的情况，即随机扰动项具有如下形式 = ps + u(4.24)ii-1 i由于实际问题中的未知，所以我们首先采用普通最小二乘法估计模型，然i后用残差e近似代替来判断是否存在自相关性为了检验自相关性，构造的假ii设是H : p 二 00而构造的统计量为：工(e - e )2i i1、DW = (4.25)Ye 2ii=2计算出该统计量的数值之后，根据样本容量n和自变量数目p查DW分布表，得到临界值d和d，然后按照下列准则考察计算得到的DW值，可以判断模型的lu自相关状态.则存在正自相关不能确定不能确定准则：若0 v DW d，l若dDWd ，lu若 4 d DW 4 d ,ul若 4

37、 d DW4，l存在负自相关从上面的准则可以看出，当值为2左右时，模型一般不存在一阶自相关而且，经验表明，如果模型不存在一阶自相关，一般也不存在咼阶序列相关.如果模型存在自相关，首先要查明原因如果是回归模型选用不当，则应该用适当的回归模型；如果是缺少重要的自变量，则应加入相应的自变量如果以上方法都不能消除自相关性，则需要采用新的方法估计模型,如广义最小二乘法、差分法、迭代法、移动平均法等等，在此只介绍一阶差分法和迭代法对其他方法有兴趣的读者可以参阅时间序列方面的教材或著作.差分法用增量数据代替原来的样本数据，将原来的回归模型变为差分形式的模型.一阶差分法适用于原模型存在较高程度的一

38、阶自相关的情况.令 Ay 二 y y , Ax 二 x x , k 二 1,2,p; i 二 1,2,n 1i i+1 i k ,i k ,i+1 k ,i建立Ay关于Ax的线性回归方程kAy 二卩 Ax + P Ax + P Ax +p(4.26)1122p p如果这个差分模型通过了各种检验和诊断，就可以利用它代替原模型做预测.这里以一元线性回归模型为例介绍迭代法先求出y关于x的一元线性回归方程y二p+p x，计算出残差e , e，,e之间的一阶自相关系数p，再令0112ny* = y py,x*= x px, i二 1,2,，n1ii+1i ii+1i建立y*关于x*的一兀线性回归方程y*

39、二P * + P *x*，通过残差e *,e *，,e*011 2n1检验这个回归方程是否存在自相关，如果y*之间不相关，则迭代结束；如果存在自相关，则需计算残差e*,e *，,e*之间的自相关系数，重复上述步骤，直到1 2n1因变量序列不存在自相关性为止.1.2.4.4误差项正态性的检验检验总体分布是否为正态分布的方法比较多，下面介绍其中的两种.在前面我们指出过，当y N(X P Q 21 )时,标准化残差SRE , SRE，,SRE可n12n近似看成来自N(0,1)的随机子样，从而可通过检验SRE ,SRE，,SRE所属总体12n是否为N(0,1)来检验模型误差的正态性.方法一：频率检验

40、法.可以粗略的统计一下SRE ,SRE，,SRE中正负个数是否大致各占一半，介12n于(-1,1)间的比例是否约为68%，介于(-2,2)间的比例是否为95%，介于(-3,3) 间的比例是否约为99%，不过这种方法比较粗糙.方法二：正态概率图检验法.首先，将残差e ,e，,e从小到大排列为e ,e，,e ；其次，对于每个1 2n(1) (2)(n)i二1,2,n，计算q =Z(i-0.5如，其中Z(i-0.5n)为标准正态分布的下侧(i)i - 0.5 n分位数，即满足然后，以q为纵坐标，e为横坐标做散点图，即为残差的正态概率图从直观上看, 如果点(q ,e ) (i = 1,2,n)基本落在

41、一条直线上，则可认为误差正态性的假定(i)(i)是合理的当然还可以进一步计算e和q (i二1,2,n)之间的相关系数来判断(i)(i)它们之间的线性关系的强弱，若相关系数接近于1，则说明点(q ,e )近似落在(i)(i)一条直线上.1.2.4.5多重共线性的处理多元线性回归模型中，假定自变量之间线性无关，因而资料矩阵X是满秩的.如果存在不全为零的p个常数c，,c，使得1pex + ex + Fex = 0, i = 1,2,n1 i12 i 2p ip则自变量x ,x， ,x之间存在着完全的多重共线(Multicollinearity) 在 12p实际问题中完全共线性的情况并不多见，常见的是

42、近似的多重共线关系，即存在不全为零的p个常数e， ,e，使得1pe x + e x + F e x = 0, i = 1,2,n1 i12 i 2p ip如果回归模型y =卩+卩x + +卩x +s存在完的多重共线性，则资料阵X011p p的秩rank(X) 1 .也可以用p个自变量所对应 j j得方差扩大因子的平均数来度量多重共线性当VIF =丄 VIF远远大于1时， pjj=1就表示存在严重的多重共线性问题.当发现自变量存在严重的多重共线性时，可以通过剔除一些不重要的自变量、增大样本容量、对回归系数做有偏估计(如采用岭回法、主成分法、偏最小二乘法等)等方法来克服多重共线性.1.2.5

43、自变量的选择与逐步回归在前面讨论了线性回归模型的估计方法和检验问题，但在应用回归分析处理实际问题时，首先要解决的问题是自变量的选择和回归函数的选择.由于本书中，我们只介绍线性回归模型，在此，我们主要考虑自变量的选择问题.在多元线性回归分析中，一方面，为了获得较全面的信息，我们总是希望模型中包含尽可能多的自变量；另一方面，考虑到自变量越多，收集数据存在困难以及成本大大增加，加之，有些自变量与其他自变量作用重叠如果把它们都引入模型，不只是增加了计算量，还对模型参数的估计和模型的预测带来不利影响. 这样一来，我们自然希望模型中选人最合适的自变量，建立起既合理又简单实用的回归模型下面我们介

44、绍一些自变量选择的准则，以及相应的“最优”自变量子集的计算方法.1.2.5.1自变量选择对估计和预测的影响设我们研究某一实际问题时，根据经验或专业知识，确定一切可能对因变量 y有影响的因素共有p个，记为x ,x，,x，它们与y 一起构成线性回归模型12py =卩+卩 x +卩 x +(4.33)011p p我们称这个y与所有自变量的回归模型为全模型.如果我们从所有可供选择的p个变量中挑出q个，记为x ,x ,x，建立如12q下的回归模型y 二卩 + P x + + 卩 x +(4.34)011q q我们称其为选模型.利用回归分析解决问题时，自变量的选择问题可以看成是应该采用全模型还是选模型

45、去描述实际问题.下面我们不加证明的给出几个结论，说明自变量的选择对参数估计和对因变量预测的影响.(1)模型正确而误用选模型的情况.结论1:当全模型正确时，选模型的回归系数的最小二乘估计是全模型相应参数的有偏估计，选模型的预测也有偏的.结论2：当全模型正确时，选模型的参数估计和预测残差以及均方误差都有较小的方差.(2)选模型正确而误用全模型的情况.如果选模型正确，怎其参数估计和预测值都是无偏的，此时全模型的参数估计和预测都是有偏估计而且，全模型的预测值的方差和均方差都要大于选模型的相应方差.以上结论的证明参见近代回归分析(陈希孺等，1987).上述结论告诉我们，建立回归方程时，丢掉那些

46、对因变量影响不大，或虽有影响，但难于观测的自变量是有利的.1.2.5.2自变量的选择准则若在一个回归问题中有m个变量可供选择，那么我们可以建立Ci个不同的m一元线性回归方程，C2个不同的二元线性回归方程，Cm个m元线性回归mm方程，所有可能的回归方程共有C1 + C 2 + + Cm = 2m 1mmm个，前面提到的多元线性回归中选变量也即选模型，即从这2m 1个回归方程中选取“最优”的一个，为此就需要有选择的准则.下面从不同的角度给出选择的准则.从拟合角度考虑，可以采用修正的复相关系数达到最大的准则.准则1修正的复相关系数R2达到最大.a与这个准则等价的准则是：均方残差MSE达到最小，因为

47、MSESSTn 1从这个关系式容易看出，R2达到最大时MSE达到最小.a从预测角度考虑，可以采用预测平方和达到最小的准则以及C准则.p准则2预测平方和PRESS达到最小.p预测平方和(Prediction Sum of Squares)准则的基本思想是：对于给定的某p个自变量x ,x,x，在样本数据中删除第i组观测值(x ,x ,x ;y)后1 2pi1 i 2ip利用这p个自变量和y的其余n 1组观测值建立线性回归方程，并利用所得的回归方程对y做预测，若记此预测值为y,则预测误差为iid 二 y - yi i(i)依次取i二1,2,n ,则得到n个预测误差.如果包含这p个自变量的回归模型

48、预测效果较好，则所有d (i = 1,2,n)的误差平方和达到或接近最小.即选取iPRESS使得pPRESS =d2 =工(y y )2(4.35)pii(i)i =1i=1达到或接近最小的回归方程作为最优回归方程.准则3 (准则)定义C统计量为pSSE/、C p- (n 2p 2)(4.36)p MSE (x , x,x )12m其中SSE是包含p个自变量的回归方程的残差平方和，MSE(x ,x，,x )p12m表示含有所有m个自变量的回归方程的均方残差.C准则要求选择C值小，且 ppC p小的回归方程.p从极大似然估计的角度考虑，可以采用赤池信息量准则(AIC准则).准则4(AIC准则)赤

49、池信息量达到最小.这个准则由日本统计学家赤池(Akaike)提出，人们称它为Akaike Imformation Criterion,简称为AIC.AIC准则通常定义为AIC = 2lnlG ,x) + 2p(4.37)L其中L(e ,x)表示模型的对数似然函数的极大值，p表示模型中独立的参数的个 L数.在实用中，也经常用下式计算赤池信息量AIC = nln(SSE ) + 2p(4.38)p选择AIC值最小的回归方程为最优回归方程.1.2.5.3逐步回归当自变量的个数不多时，利用某种准则，从所有可能的回归模型中寻找最优回归方程是可行的但若自变量的数目较多时，求出所有的回归方程式很不容易的

50、为此，人们提出了一些较为简便实用的快速选择最优方程的方法，下面我们简单的介绍一下“前进法”和“后退法”，再详细介绍“逐步回归法” 1.前进法和后退法前进法的思想是这样的：设所考虑的回归问题中，对因变量y有影响的自变共有m个，首先将这m个自变量分别与y建立m个一元线性回归方程，并分别计算出这m个一元回归方程的偏F检验值，记为F,F（1）,F（1），若其中偏F12m值最大者（为方便叙述起见，不妨设为F（1）所对应的一元线性回归方程都不能1通过显著性检验，则可以认为这些自变量不能与y建立线性回归方程；若该一元方程通过了显著性检验，则首先将变量x引入回归方程；接下来由y与x以及其1 1他自变量x

51、（j丰1）建立m -1个二元线性回归方程对这m -1个二元回归方程中的jx ,x ,x的回归系数做偏F检验，检验值记为F,F，,F，若其中最大23m23m者（不妨设为F）通过了显著性检验，则又将变量x引入回归方程，依此方法2 2继续下去，直到所有未被引入方程的自变量的偏F值都小于显著性检验的临界值，即再也没有自变量能够引入回归方程为止得到的回归方程就是最终确定的方程.后退法与前进法相反，首先用m个自变量与y建立一个回归方程，然后在这个方程中剔除一个最不重要的自变量，接着又利用剩下的m -1个自变量与y建立线性回归方程，再剔除一个最不重要的自变量，依次进行下去，直到没有自变量能够剔除

52、为止.前进法和后退法都有其不足，人们为了吸收这两种方法的优点，克服它们的不足，提出了逐步回归法.2.逐步回归法逐步回归法的基本思想是有进有出，具体做法是将变量一个一个得引入，引入变量的条件是通过了偏F统计量的检验同时，每引入一个新的变量后，对已入选方程的老变量进行检验，将经检验认为不显著的变量剔除，此过程经过若干步，直到既不能引入新变量，又不能剔除老变量为止.设模型中已有l -1个自变量，记这l -1个自变量的集合为A，当不在A中的一个自变量x加入到这个模型中时，偏F统计量的一般形式为kF 二 SSE（A）-SSE（A,x ）二 SSR（xA）（4 3g）SSE（A, x ） n -

53、 /-1 _ MSE（A, x ）kk下面我详细叙述逐步回归法的具体步骤.首先，根据一定显著水平，给出偏统计量的两个临界值，一个用作选取自变量，记为F ；E另一个用作剔除自变量，记为F 一般地，取F F，然后按下列步骤进行.DE D第一步：对每个自变量x (1 i m)，拟合m个一元线性回归模型iy = p +p x +(4.40)0 i i这时，相当于统计量(4.39)中集合A为空集，因此，SSE(A)二SST，故SSR(x |A) = SSR(x)，MSE(A, x)二 MSE(x )，对每一个 i，计算iiiii = 1,2,(4.41)SSR(x)iMSE(x)iF =maxF 11

54、片 F，则选择含自变量x的回归模型为当前模型，否则，没有自变量 iEi能进入模型，选择过程结束，即认为所有自变量对的影响均不显著.第二步：在第一步的选出模型的基础上，再将其余的m-1个自变量分别加入到此模型中个，得到m -1个二元回归方程，计算SSR(x x )F =i_iMSE(x ,x)i ii Hii(4.41)=maxF . ii Hi1若F F，则选取过程结束第一步选择的模型为最优模型若F F，i2Ei2E则将自变量x选入模型中，即得第二步的模型L(4.42)P +卩 x +卩 x + E0i1 i1i2 i2进一步考察，当x进入模型后，x对y的影响是否仍然显著为此计算Li(4.4

55、3)SSR(x x )F iir-iiMSE(x ,x )i1 i2若F F ，则剔除x.这时仅含有x的回归模型为当前模型.i2Di1i2第三步：在第二步所选模型的基础上，在将余下的m - 2个自变量逐个加入,拟合各个模型并计算F统计量值，与F比较决定是否有新变量引入，如果有新E变量进入模型，还需要检验原模型中的老变量是否因这个新变量的进入而不再显著，那样就应该被剔除.重复以上步骤，直到没有新的自变量能进入模型，同时在模型之中的老变量都不能剔除，则结束选择过程，最后一个模型即为所求的最优回归模型.1.3 SPSS中实现过程131研究问题1.3.2实现步骤133小结一元线性回归只涉及一个自变量

56、的回归问题；多元线性回归用于解决两个或两个以上自变量对一个因变量的数量变化关系问题；非线性回归主要解决在非线性相关条件下，自变量对因变量的数量变化关系；时间序列的曲线回归用于研究因变量与时间之间的变化关系；当遇到非数量型变量时，通过引入虚拟变量来构造含虚拟变量的回归模型；Logistic回归分析是对定性变量进行的回归分析。SPSS中“Analyze” / “Regression”菜单可用于回归统计分析。其中，一元线性回归、多元线性回归和含虚拟变量的回归分析可由“Linear”子菜单完成；非线性回归分析、曲线估计和时间序列的曲线估计可由“Curve Estimation”子菜单完成；逻辑回归分析可由“Binary Logistic”子菜单完成。

展开阅读全文

温馨提示:
1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

备案号:蜀ICP备2024067431号-1 川公网安备51140202000466号

本站为文档C2C交易模式，即用户上传的文档直接被用户下载，本站只是中间服务平台，本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私，请立即通知装配图网，我们立即给予删除！

统计学多元回归分析方法

最新文档

相关资源

相关搜索