第四章 多元线性回归模型

上传人:suij****uang 文档编号:167776649 上传时间:2022-11-05 格式:DOCX 页数:14 大小:208.51KB
收藏 版权申诉 举报 下载
第四章 多元线性回归模型_第1页
第1页 / 共14页
第四章 多元线性回归模型_第2页
第2页 / 共14页
第四章 多元线性回归模型_第3页
第3页 / 共14页
资源描述:

《第四章 多元线性回归模型》由会员分享,可在线阅读,更多相关《第四章 多元线性回归模型(14页珍藏版)》请在装配图网上搜索。

1、第四章 多元线性回归模型在一元线性回归模型中,解释变量只有一个。但在实际问题中,影响因变量 的变量可能不止一个,比如根据经济学理论,人们对某种商品的需求不仅受该商 品市场价格的影响,而且受其它商品价格以及人们可支配收入水平的制约;影响 劳动力劳动供给意愿(用劳动参与率度量)的因素不仅包括经济形势(用失业率 度量),而且包括劳动实际工资;根据凯恩斯的流动性偏好理论,影响人们货币 需求的因素不仅包括人们的收入水平,而且包括利率水平等。当解释变量的个数 由一个扩展到两个或两个以上时,一元线性回归模型就扩展为多元线性回归模 型。本章在理论分析中以二元线性回归模型为例进行。一、预备知识(一) 相关概念对

2、于一个三变量总体,若由基础理论,变量x ,x和变量y之间存在因果关12系,或x , x的变异可用来解释y的变异。为检验变量x , x和变量y之间因果关1 2 1 2系是否存在、度量变量x ,兀2对变量y影响的强弱与显著性、以及利用解释变量 x ,x去预测因变量y,引入多元回归分析这一工具。12将给定x , x条件下y的均值1i 2iiE (y I x , x ) =x + P x(4.1)i 1i 2i0 1 1i2 2 i定义为总体回归函数 ( Population Regression Function,PRF )。 定 义y - E (y I x , x )为误差项 (error ter

3、m),记为 p,即卩 =y - E(y I x ,x ),1 1 ii1i2 iiii i1i2 i这样 y = E(y I x , x ) + p,或i i 1i 2 iiy = P+P x + P x + p(4.2)i 0 1 1i2 2 ii( 4. 2 )式称为总体回归模型或者随机总体回归函数。其中, x ,x 称为解释12变量(explanatory variable) 或自变量(independent variable); y 称为被 解释变量(explained variable)或因变量(dependent variable);误差项p 解 释了因变量的变动中不能完全被自变量

4、所解释的部分。在总体回归模型(4.2)中参数P ,P ,P是未知的,p是不可观察的,统计0 1 2 i 计量分析的目标之一就是估计模型的未知参数。 给定一组随机样本 (y , x , x ), i 二 l,2,n,对(4.1)式进行估计,若 E(y I x , x ), p , p , p 的估 i 1i 2 ii 1i 2 i0 1 2计量分别记为J, 0, P, 0,则定义(4.3 )式为样本回归函数i0l2y = 0 + p x +0 x ( i = l,2,n )(4.3)i 0 l li2 2 i注意,样本回归函数随着样本的不同而不同,也就是说P , P, 0是随机变量,0l2它们的

5、随机性是由于y的随机性(同一组(x ,x )可能对应不同的y )、x ,x各ili 2 iil 2自的变异、以及x ,x之间的相关性共同引起的。定义y - y为残差项(residual1 2 i iterm),记为 e,即 e = y - y,这样 y = y + e,或i i i i i i iy = 0 + 0 x + e( i = 1,2,n)(4.4)i 01 i i( 4. 4)式称为样本回归模型或者随机样本回归函数。样本回归模型中残差项 e 可i 视为总体回归模型中误差项卩的估计量。i(二) 多元线性回归模型的矩阵表示 多元线性回归模型的参数估计比一元线性回归模型要复杂得多,为了便

6、于计 算和分析,便于将结果由三变量总体推广到一般的多变量总体,引入矩阵这一工 具简化计算和分析。设(y , x ,x ),i = 1,2,n是取自总体的一组随机样本。在该组样本下,总体 i 1i 2 i回归模型(4.2)式可以写成方程组的形式y = 0+0 x +0 x +p1 0 1 11 2 21 1y =0 +0 x +0 x +p2 0 1 12 2 22 2y =0 +0 x +0 x +P2 2 n利用矩阵运算,可表示为y1y2y1y2x11x12x21x22x1nx2nx11x12x1n0=x21x22x2n0001030000102P1P2P1P24.5)4.6)4.7)则在该

7、组样本下,总体回归模型的矩阵表示为y= X0+P0001A,e =e1e202en记0=则样本回归模型的矩阵表示为Ay= X 0+e(三) 模型假定假定1 回归模型是参数线性的,并且是设定正确的假定 2 随机误差项与解释变量不相关。即cov( x ,卩)=0 , j = 1,2。ji i 如果解释变量是非随机的,则该假设自动满足。 假定 3 零均值假定。即E(卩)=0 , i = 1,2,ni假定 4 同方差假定。即var(卩)=a 2, i = 1,2,,ni 假定 5 无自相关假定。即两个误差项之间不相关cov(卩,卩)=0 i 丰 j , i = 1,2,n , j = 1,2,nij假

8、定 6 解释变量 x 与 x 之间不存在完全共线性,即两个解释变量之间无确切的12 的线性关系。假定 7 正态性假定。即卩 N(0,a 2), i = 1,2,ni(四)参数估计与估计量的分布系数向量P的OLS估计为P = ( XtX ) -1 XTy(4.8)其中,XT为X的转置矩阵。在随机误差项服从正态分布的假定下,系数向量的 估计量也服从正态分布,即PA N(P,a2(XT X)-1)(4.9)记C = (XTX)-1的第j个主对角元素为c,贝yjjPA N(P ,a 2c )(4.10)jjjj有了系数估计量的分布,就可以对总体参数做假设检验。与双变量总体相同,A总体误差卩是不可观察的

9、,因而其方差a2是未知的。若用a2的无偏估计量a 2代i替a 2,则OLS估计量服从自由度为n-3的t分布,而不是正态分布,即P - Pjj t(n 一 3)(4.11)se(P )j其中,坯p 7) = Q jAa2(五)预测原理 回归分析的目的之一是利用回归模型预测因变量。假设三变量总体的回归模型为(4.2),即y = B+B x + P x +p(4.2)i 0 1 1i2 2 ii在一组随机样本(y , x ,x ),i二1,2,n下,利用OLS求得样本回归函数为(4.3) i 1i 2 iy = 0 + P x + pA x (i = 1,2,n )(4.3)i 01 1i2 i 2

10、 i给定样本外一点x = (1, x ,x )T,则因变量y的点预测为f1f 2 f f4.12)4.13)4.14)yAf = PA0+ PA1 x1f +PA2x2f点预测的标准误为fAA1se(y ) =b :1 + xt(XtX)-1 x f+ fAA AAf 2 2( 3)Se(yf), f 2 2( 3)Se(yf)因变量少的置信度为1 -的区间预测为二、案例案例 1 Woody 餐馆的选址分析Woody餐馆是一家价位适中、24小时营业的家庭连锁店,公司邀请你决策下 一家连锁店的选址问题。你决定建立一个回归模型来解释每一家连锁餐馆的毛销 售额Y (the gross sales v

11、olume),通过文献的阅读,你认为以下变量对毛销 售额的影响较大,N =竞争变量:餐馆位置半径2里以内市场直接竞争者的数量;P=人口:餐馆位置半径3里以内人口的数量;1=收入:餐馆位置半径3里以内家庭平均收入。并且通过调研,你获得了 33家Woody餐馆连锁店的数据。案例 2 经济形势和实际工资对人们工作意愿的影响 在第三章,我们根据劳动经济学理论,分析了经济形势对人们工作意愿的影 响存在两种效应:受挫工人效应和增加工人效应;并且利用 1980-2002 年的数据 实证了受挫工人效应占主导地位。但根据劳动经济学理论,影响人们工作意愿的因素,除了经济形势以外,还 有实际的工资水平。从理论上说,

12、实际工资增加对劳动供给具有两种效应:替代 效应与收入效应。替代效应趋于使劳动供给增加,而收入效应则趋于使劳动供给 降低,两种效应的相对影响取决于家庭的偏好(参考文献4, p49)。本案例考察实际工资对人们工作意愿是否有影响,以及在有影响的情况下, 那种效应占优。数据见表3.1。三、实验目的案例 1 Woody 餐馆的选址分析1、绘制Y对N、P、I的散点图,并在散点图中附加回归线。2、建立Y对N、P、I的线性回归模型,并定性分析解释变量N、P、I对Y的影 响。3、利用样本数据及OLS法对回归模型进行估计,并报告回归结果。4、观察回归系数的显著性和方程的显著性,并解释回归系数的含义。案例 2 经济

13、形势和实际工资对人们工作意愿的影响1、绘制 clfpr 对 ahe82 的散点图,并附回归线,观察城市劳动参与率与实际工 资之间的线性关系。2、建立clfpr对ahe82的一元线性回归模型,利用1980-2002年的数据估计模 型,并观察回归系数的显著性和方程的显著性。3、同时考虑经济形势与实际工资对人们工作意愿的影响,建立二元线性回归模 型,利用 1980-2002年的数据估计模型,观察回归系数的显著性和方程的显著性, 并解释回归系数的经济含义。4、对上面(2)与(3)中估计结果的差别进行解释。5、模型的选择问题,在以下三个模型之间,哪个模型更好呢?clfpr = P + P cunr +

14、p(I)t 0 1 t tclfpr = P + P ahe82 + p(II)t 0 1 t tclfpr = P + P ahe82 + P cunr + p(III)t 0 1 t 2 t t四、实验原理五、实验步骤案例 1 Woody 餐馆的选址分析图 4-1 Y 对 N 、P 、 I 的散点图1、打开Eviews工作文件Woody.wfl,按住Ctrl键,点击工作文件目录中的序 列Y、N、P、I图标,点击鼠标右键,点击Open/as Group,出现包含序列Y、N、P、 I 的组对象窗口。点击组对象窗口工具栏的View按钮,选择Graph,在Specifi选项中选择Seatter,

15、在 Fit lines 中选择 Regression Line, 在 Multiple 中选择 Multiple graphs-Firs tvs.All,设定完毕后点击确定按钮,则出现Y对N、P、I的三张散 点图,点击鼠标右键,选择Copy,将散点图复制到Word文档中,如图4-1所示。2、Y 对 N、 P、 I 的线性回归模型为Y 二卩 + 卩 N + P P + P I +卩(4.15)i 0 1 i 2 i 3 i i 一般来说,人口越多,餐馆的毛销售额越大;人们的收入水平越高,餐馆的 毛销售额越大;竞争者的数量越多,餐馆的毛销售额越低。即P和I对Y有正的 影响,N对Y有负的影响,从而P

16、 , P的预期符号为正,勺预期符号为负。图2 3 14-1 散点图中回归线的斜率与理论的预期是一致的。3、在文件窗口点击 objeet/new objeet, 在出现的对象类型中选择 equation, 在 对象名中填写eq1,点击OK,出现对话框图4.2Equation EstimationMethod: LS定。出现图4.322404.0922 12D7922.302 822. 8 82.758 93Akaike info criterionSchwarz criterionHannan-Quinn enterDurbin-Watson stat0.6 8 540.5786534542.7

17、86. 3E+09-360.99305.64894n nnnnnoDate: V 7/ 2 Time: 0:50nc uded observations: 33F-statisticSpecification Optionsy c i n p|AEstimation settingsEquation specificationDependent variable followed by list of regressorsand FDL terms, OR an explicit equation likeLeast Squares (NLS and ARMA)图4.2回归万程的设定,样本范围

18、填写1到30。设定完毕后点击确 Equation: EQI Workfile: WOODY:regressionDependent Variable: YMethod: Least SquaresS.E. of regressionSum squared residLog likelihoodVariableCoefficientStd. Eirort-StatisticProb.C102.192.412799837.9838910.000011.2879230.5432942 3705840.0246N-9074.6742052.674-4.4209040.0001P图4.3?方程估计的输出

19、4 8798100.000025634.6Ml巳日n dependent varS.D. dependent varSample: 1 33R-squared精品文档 :|View Proc |Object Print Name Freeze 根据图4.3,报告估计结果如下Y = 102192.4 - 9074.67*N + 0.35*P + 1.29*I(2052.67) (0.073) (0.54)t二-4.424.872.37 R2=0.584、从估计输出结果可知,回归系数的符号方向(正、负)和大小均与理论分析 一致,t统计量的值显示也在0.05的显著性水平下显著(这一点也可以从边际 概

20、率值观察到),F统计量的值为15.64 (相应的概率值为0.000003),表明三个 解释变量对被解释变量联合显著。多元回归系数的含义为,当其他变量(控制变量)不变时,该变量对因变量 的边际影响。对于本例各系数的含义为,收入增加一个单位会使餐馆的销售收入 增加1. 29个单位;人口增加一个单位会使餐馆的销售收入增加0. 35个单位;竞 争者的数量增加一个单位将使餐馆的销售数量减少9074.67个单位。案例 2 经济形势和实际工资对人们工作意愿的影响在以下操作中,假设包含clfpr、ahe82和cunr三个序列的Eviews工作文 件 clfpr.wfl 已经存在。1、打开Eviews工作文件c

21、lfpr.wfl,建立包括序列ahe82和clfpr的组对象, 点击组对象窗口工具栏的View按钮,选择Graph,在Specifi选项中选择 Scatter,在Fit lines中选择Regression Line,设定完毕后点击确定按钮, 出现图4.4。用 1980-2002 年的数据估计上述模型,估计结果如图 4.5 所示 Equation: UNTITLED Workfile: CLFPR-CUNR:Untitl.亘叵应wevv Pro匚object Print|Name | Freeze | |Estimate |Forecast!StatsResidsDependent Varia

22、ble: CLFPR Method: Least Squares Date: 11/18/12 Time: 10:17 Sample: 1980 2002 Included observations: 23VariableCoefficientStd. Errort-StatisticProb.AHE82-0 8845181.227799-0 7204090.4792C72.685679.42844577091900.0000R-squared0.024118 Mean dependent var65.89565图4.5 Icifpr对ahe82回归的估计结果.N m图您的t统计量和概率值均可

23、知事际工资对劳动参与率没有显著影响, 拟合优度(0024118)很低,调整的拟合优度更疋为负值 F统计里和概率值也归的结显示方程常数项和解释变量(ahe82)对因变量(clfPT)的联合影响不显著。回 归的结果与理论分析相悖- 3、同时考虑经济形势与实际工资对人们工作意愿的影响,建立二元线性回归模4.17)型如下clfpr = B + B ahe82 + P cunr + pt 0 1 t 2 t t利用 1980-2002 年的数据估计模型,估计结果如图 4.6 所示口 Equation: UNTITLED Workfile: CLFPR-CUNR:Un廿tl| 口 | 回 医ViewPro

24、c Object PrintName FreezeEstimateForecastStatsResidsDependent Variable: CLFPR Method: Least Squares Date: 11/18/12 Time: 10:19 Sample: 1980 2002Included observations: 23VariableCoefficientStd. Errort-StatisticProb.AHE82CUNRC-1.410432-0.67163180.951220.6103480.0827054.770337-2.310867-8.12084516.96971

25、0.03160.00000.0000图4-dfpr对愛和圖回如果丫S由 4.6中间部分的t统计量和概率值可知解释变量:ahe82和cunr均在 0.05的水平上对Plfpr有显著影响;调整的拟合优度为训750205,拟合度较高 F统计量的髀4.03611,相应的概率值为魏斶表明瞬和前对躍 的联合影响显著。:二二二解释变量ahe82和cunr的回归系数分别为-1.41和-0.67,它们的经济含义 为,在cunr保持不变的条件下,实际小时工资增加1美元,劳动参与率降低1.41 个百分点,表明实际工资对劳动供给影响的收入效应占优,即收入效应大于替代 效应;在 ahe82 保持不变的条件下,失业率上升

26、 1 个百分点,劳动参与率降低 0.67 个百分点,表明在剔除了实际工资对劳动供给的影响之后,失业率对劳动 供给的影响依然是受挫效应占优。4、在(2)的一元回归模型中,估计的结果表明,ahe82对劳动参与率没有显著 的影响,但在引入的解释变量cunr后,即在(3)中的二元回归模型中,ahe82 对劳动参与率的影响在0.05的水平下却是显著的,为什么会出现这种差别呢? 为了解释一元回归估计结果与多元回归结果的差别,现来观察clfpr、ahe82 与cunr的相关系数矩阵(显示组对象相关系数矩阵的Eviews操作见第二章),如 图4.7所示。口 Group: UNTITLED Workfile:

27、CLFPR-C.CLFPR1.000000-0.155299-0.843967ViewProcObjectPdntNameFreezeSampleSheetStats| SpecCorrelationCLFPRAHE82CUNRAHE82CUNR图4出-cfpr、2he82与Mn?gg相关系数矩阵61戏-0.843967-0.106105000000由图4.7可知,cur和ahe82与clfpr的相关系数分别为-0.155299和-0.843967,均为负相关。在( 2)中的一元回归模型中, ahe82 的回归系数 -0.884518中包含了 cunr通过ahe82对clfpr的间接影响,这种

28、间接的影响是 正方向的,使得ahe82对clfpr的影响被高估;而在(3)中的多元回归模型中, 因为剔除了这种正方向的间接影响,使得 ahe82 对 clfpr 的直接影响增加为 -1.41,并且影响由不显著到显著。另外,也可注意到在(3)中的多元回归模型中,cunr的回归系数-0.671631 与 clfpr 对 cunr 的一元回归系数(见第三章案例1) -0.646948 的变化,同样 是因为 clfpr 对 cunr 的一元回归系数-0.646948 中包含了 ahe82 通过 cunr 对 clfpr的间接影响,同样间接的影响也是正方向的,(3)中的多元回归模型中, cunr 的回归系数-0.671631 是剔除了这种间接影响之后, cunr 对 clfpr 的直接 影响。5、显然,模型(III)最好。首先,模型(III)包含了模型(I)和模型(II); 其次,也是最重要的,模型(III)更符合经济学的相关理论,计量分析必须建立 在相关的理论基础之上;最后,模型(III)的一些统计指标最好,比如,模型(III) 调整的拟合优度为0.75,是最高的。六、作业

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!