第二章 简单线性回归模型(西财教材)

上传人:m**** 文档编号:145587032 上传时间:2022-08-29 格式:DOC 页数:23 大小:410.50KB
收藏 版权申诉 举报 下载
第二章 简单线性回归模型(西财教材)_第1页
第1页 / 共23页
第二章 简单线性回归模型(西财教材)_第2页
第2页 / 共23页
第二章 简单线性回归模型(西财教材)_第3页
第3页 / 共23页
资源描述:

《第二章 简单线性回归模型(西财教材)》由会员分享,可在线阅读,更多相关《第二章 简单线性回归模型(西财教材)(23页珍藏版)》请在装配图网上搜索。

1、第二章 简单线性回归模型第一节 回归分析与回归方程一、回归与相关1、变量之间的关系 函数关系:y二f (x),其中y为应变量,x为自变量。 相关关系或统计关系(双向因果关系):当一个或若干个变量x变化 时,y发生相应的变化(可能是不确定的),反之亦然。 单向因果关系:y = f (x,u),其中u为随机变量。单一线性函数要求 变量具有单向因果关系。2、函数关系与相关关系的互相转化3、相关关系的类型 简单相关; 复相关或多重相关; 线性相关; 非线性相关; 正相关; 负相关; 不相关。上述相关类型可直观地用( EViews 软件)画图形来判断。例如,美国个人 可支配收入与个人消费支出之间的相关关

2、系可由下列图形看出,它们为正相关关 系。350013000-2500-2000_TIFORP20050501STOCK其中,STOCK为(美)公司股票利息,PROFIT为公司税后利润。以下是利润与股息分别对时间的序列图(或称趋势图)70 72 74 76 78 80 82 84 86 88 90250014012010080604070 72 74 76 78 80 82 84 86 88 90201500150020002500300035004000PDI其中,PDI为(美)个人可支配收入,PCE为个人消费支出。PROFIT 对 STOCK 的折线图为STOCKPROFITGDP对M2的折

3、线图为其中M2为(中国)广义货币供应量,GDP为国内生产总值。LM2 对 LPP 的曲线图为其中,LPP为(中国)季度物价指数,LM2为季度广义货币供应量,变量前L 表示对变量取了对数。4、相关关系的度量(相关程度) 总体相关系数记号)Cov (X, Y)x.Var (X )Var (Y) 样本相关系数:工(X - X)(Y - Y)rXY记号+表达式) 计算相关系数应注意的问题: r 二 rXY YX这里只是说明线性相关。 r是P的样本估计值。XY相关系数仅反映变量之间的线性相关程度,而不反映它们之间的(单向) 因果关系,原因是相关关系反映的是变量之间的双向因果关系。 运用EViews进行相

4、关程度的度量用图形直观地进行判断。 用计算简单相关系数进行判断。下列表格为PDI与PCE之间地简单相关系数,PDIPCEPDI 10.997020834PCE0.99702083415、回归的含义 “回归的古典解释。 Francis Galton (1886 年)。K Pearson (1903 年)。 什么是回归分析。依据变量间观测的数据,建立二者变动的具体统计规 律,即它们之间的函数形式。 回归分析与相关分析的联系和区别联系是回归分析是建立在相关分析基础之上的;而相关分析的相关系数可 以通过回归分析得到。区别是相关分析中的两个变量有可能都是随机的,而回归分析中两个变量, 解释变量是非随机的

5、,应变量是随机的;相关分析是通过计算相关系数来度量变 量之间的相关程度,而回归分析是通过解释变量的固定值来计算应变量的平均 值;相关分析是对称的,而回归分析是非对称的。二、总体回归函数1、一个实例资料见教材第 17 页第 18页的表 2.1 和表2.2。e(y I X)对x的线性回归图Y对X的散点图2、总体回归函数的建立当解释变量X取定各种值时,Y的条件均值会随着发生相应变动,即E(Y IX 芫 f X )ii如果这种变动的轨迹是一条直线,即f(X)邛 +p Xi 1 2 i则E (Y I X )二 B +p Xi 1 2 i三、随机扰动项1、随机误差项的含义设个别值Y与Y的条件平均值E(YI

6、 X )的差异为u,即i i iu 二 Y - E(Y I X )i i i或Y = E YI X ui i i从而Y = p +p X +ui 1 2 i i从上述Y.的表示可以看出,它由两部分组成,一部分为确定性部分p +p X ,i 1 2 i另一部分为非确定部分u (即随机误差部分),当随机部分u为零时,Y值就等 ii于它的系统部分。如果确定性部分是影响 Y 的主要部分,则随机部分就应相对小,从而用确定性部分(线性)表示Y才可能成立。2、产生随机扰动项的原因变量的设定误差。模型的设定误差(单一方程模型和联立方程模型)。数据的误差。偶然因素引起的误差。四、样本回归函数1、从总体中随机地抽

7、取两组样本(见教材第 21 页)。事实上,在重复抽样 的情况下,这样构成的样本可以有无数组。2、在得到的这两条样本直线中(事实上,这样的样本直线可以有无数条), 哪一条直线才是代表总体的直线,或者说与总体直线近似最好的一条,这正是 计量经济学所要解决的问题。3、样本回归函数的表达。设样本回归函数为八八八丫 =卩十卩xi 1 2 i其中,B是样本回归函数的截距项,p是样本回归函数的斜率系数。124、残差。由于总体的Y的均值E(YI X )未知,通常关心估计值Y与实际值iY之间的差异,记e = Y Y,则称e.为残差。残差又称是对总体中随机误差u的i i i i i 估计。有时也可将样本回归函数写

8、成如下形式Y = 0+0 X + ei 1 2 i5、总体回归函数与样本回归函数的对应关系。总体回归函数为Y = 0 +0 X +ui 1 2 i i样本回归函数为Y =0 +0 X +ei 1 2 i其中,0是0的估计,0是0的估计,Y是E(Y I X )的估计,e是u的估计。1 1 2 2 i i 这样构成了利用样本回归函数对总体回归函数的重要推断关系。第二节 简单线性回归模型的最小二乘估计一、简单线性回归模型的基本假定(经典假定、古典假定)1、零均值假定。2、同方差假定。3、无自相关假定。4、随机扰动项与解释变量不相关假定。5、正态性假定。假定1、2、3是针对随机误差项u而提出的,假定4

9、是针对随机误差项与解释变量之间的关系而提出的,假定 5 与分布有关。关于y也可以得到相应的假定结果(见教材第24页)。 为什么要提出这些假定?1、为了保证得到的参数估计具有最优的统计特性。关于参数估计的评价标 准和最优特性见教材第 35 页。2、为了对真实参数p和p作出统计推断,包括建立参数估计p和p的统1 2 1 2计分布。对于Y也可以得到相应的假定条件(见教材第24页)。普通最小二乘法(OLS)1、2、3、4、残差平方和最小原则的建立,即min Q = min 工 e 2 =min 工(Y - Y) 2 = min 工(Y p p X ) 2 ii ii 12 i根据极值原理,求残差平方和

10、的关于a和p的偏导数。12戮=-2 工(Y p pX )二 0 dpi 12 i1黑=-2工(Y p -pX)X 二0 dpi 1 2 i i2写出正规方程组。工Y = np +p 工Xi12i乙XY = 0乙X +p乙X2i i 1i 2i由正规方程组解出未知参数的估计值,即教材第 24 页公式()和)。p = Y p X;nX Y S X 工 Y p =2i i2 n乙 X 2-(乙 X )2ii5、估计式的离差形式。p = Y p X 乙(X X )(Y Y)p =右i=2乙(X X)2iix = X X, y = Y Y6、一个例子(第 25 页)。Dependent Variable

11、: YMethod: Least SquaresDate: 08/02/04 Time: 01:59Sample: 1 10Included observations: 10VariableCoefficientStd. Errort-StatisticProb.C37.224245.7008716.5295710.0002X0.5414140.02674120.246750.0000R-squared0.980858Mean dependent var142.8000Adjusted R-squared0.978465S.D. dependent var49.65391S.E. of reg

12、ression7.286559Akaike info criterion6.986796Sum squared resid424.7515Schwarz criterion7.047313Log likelihood-32.93398F-statistic409.9309Durbin-Watson stat 0.628992Prob(F-statistic)0.000000需要注意的是,由于抽样过程本身具有随机性,故样本的随机性是由抽样的 随机性带来的。尽管在基本假定下,从理论上讲能得到最优的参数估计,但在实 际获取样本的过程中,经过多次重复抽样,每次抽样得到的样本多不相同,因此, 基于这些不

13、同的样本分别推断总体,很可能得到的结论会有不同。这种不同有时 候恰恰是研究问题的切入点。三、参数的极大似然估计(ML)OLS方法是应用最小二乘原则得到的参数估计,ML是由随机样本建立似然 函数来求出参数的估计。按照 ML 法的原理,对于连续的随机变量,首先建立关 于样本观测值的联合密度函数,即变量的似然函数。然后在已知样本观测值的条 件下,求使得似然函数取极大值的总体分布参数所代表的总体具有极大概率来取 得 这些样本观测值,最后用这些样本来表达出总体的未知参数。设一元线性回归模型为Y 二卩 +卩 X + ui 二 1,2, , ni 12 i iE(u )二 0iVar(u ) -G2iu N

14、(0,G2)i已知样本观测值为(Y., X.) i=1,2,,n。则在u.服从正态假定下,Y.服从i i i i正态分布为N(0 +0 X Q2),其中介和p为待求的参数估计量。由此建立变量12 i12的似然函数,即 y 的所有样本观测值的联合概率函数为碑心)=仲,讣步eR对上式取对数得In L = -n 叽药-丄 Y (Y- 0 - 0 X )22c 2i 12 ii对lnL求极大等价于对工(Y-B -B X )2求极小值,即 i 12 iii12 iI 工(Y -B -B x )2 二 o工(Y-B -B x )2 二 o吐ii12 i解出上式,即与教材第31页的式和式完全一样。需要说明的

15、是OLS估计量于ML估计量只有在Y (残差项u)服从正态分布时才是等价的。四、参数估计的另一种方法(矩估计)我们也可用代数的办法建立正规方程,由此得到总体参数的估计量。设总体 回归函数为对上式两段分别求和工Y = Yp +Yp X + 工ui12 ii由假定1矢口,工u = 0,所以该式变为i工Y = nP +P 工Xi12i即为第31页的式。如果对总体回归函数两端同时乘以召,得XY = PX +卩 X2 + Xu i i 1 i 2 ii i再对上式两端同时求和,得工XY = P工X +P工X2 +工Xui i 1i 2ii i由假定4知, YXu =0(为什么),所以可得第31页得式,即i

16、iYX Y = p YX +p Y X2i i 1i 2i这样,便得到了一个正规方程组,由此可解出参数的估计量a和通过该途径得到而无需对残差平方和求一阶微分,这是一个重要的解决思路,说明了对单一方程运用若干估计方法之间的关联性,对我们进一步理解通过 正规方程组求参数估计量具有重要帮助。五、OLS回归线的性质1、(3、(3分别是样本(X , Y)的线性组合,由于Y的随机性使得(3、0是随1 2 i i 1 2 机的,并且是3、3 的点估计。122、回归线通过样本均值点(X, Y)。 3、Y 二 Y4、工 e = 0i5、Cov(Y, e ) = 0ii6、Cov(X ,e)=0ii六、最小二乘估

17、计的统计性质1、线性性,即参数估计0、0是关于被解释变量y的线性函数122、无偏性,即 E(3 )=3,E(3 )=3 。1 1 2 23、有效性,即由最小二乘法得到的参数估计,如3 的方差为2Var(3 ) =2任设3 的另一线性无偏估计量为 3*,则一定有22Var(0*) Var(0 )22上述统计性质的证明可见教材第 60页第 62 页的该章附录。4、一致性。有兴趣可参阅唐国兴著计量经济学理论、方法和模型,复旦大学出版社,1988 年,第47 页第 49 页。第三节 回归系数的区间估计和假设检验一、几个重要分布的复习1、设XN(2),且X, X相互独立(i丰j )则ii jU上a X

18、N(卩工a q2工a2)正态分布具有线性性i i i ii=li=li=l更一般地,设XN(卩Q2),X,X相互独立(i丰j )则ii ii jU = a X N (Yay ,工a 2c 2)i ii ii i特殊地,设XN(RQ2),则iX = - X 二)n ini=12、设X , X , X相互独立,且XN(0,1),则12nix2 =工X 2- x 2 (自由度为n的卡方分布) ni(n )i=1推论,设设X , X , X相互独立,且Xx 2,则1 2 n ini其中,n =工n 。i、 n X x 2i( n)i=13、设 X N (0,1), Y x 2 , (n)XT =tY(

19、n)且X, Y相互独立,则(自由度为n的t分布)Y推论,设XN(2), x2,且X, Y相互独立,则O 2(n)T = 0 t 丽(n)n4、设XX2 , YX2,且X, Y相互独立,则( m)( n)X XF = m =丄F (第一自由度为m,第二自由度为n的F分布) Y Ym (m,)/n二、参数区间估计与假设检验的意义区间估计与假设检验均为统计推断,它们是同一问题的两个不同方面。在计量经济分析中,对于总体参数真值的估计,需要推断参数的变动范围,检验变量之间关系存在的真伪或者是对经济理论成立与否的实证判断。这些问题的解决就 是参数的区间估计与参数的假设检验,要进行这些工作首先需要建立估计量

20、的统 计分布。三、回归系数估计量的分布 由概率论与数理统计知,研究参数真值的区间估计和假设检验问题,首先要 知道来自样本的估计量的分布。在这里,我们推断研究的是总体回归函数中的01 和0 ,因此,首先对于它们的估计0和0的分布应该明确。根据基本假定,以2 1 2及0、0分别是随机变量y的函数和正态分布的性质,很容易得到0和0的分1 2 1 2布。1、b2已知的情况下工X 20 s N (0 Q 2 y i )11n 厶 x 2iN(02,b2工x 2经变量的标准化后,它们均服从标准正态分布N (0, 1)。2、b 2未知的情况下。如果是大样本,则它们渐进服从正态分布(方差用b 2的估计b2表示

21、)。如果是小样本,则计算b2的估计b2 (见本章附录),可以证CY 2八八明(n - 2) 一服从自由度为(n-2 )的咒2分布,根据t分布的定义,0和0服从b 212自由度为n-2的t分布。即st(n)t 0 -0t 二se(02t 0-0 tt 二 + 十 s t(n)se(0 )1四、回归系数的区间估计1、区间估计的意义。判断参数估计值的可靠性和稳定性。设5与a为两个正数,其中a满足0 a 1,贝UP(0-5 t,则拒绝零假设,表明X对aa22Y 有显著性影响。在讲解过程中应说明经济意义上的因果关系十分重要。 能根据 EViews 软件的回归分析报告进行参数的显著性检验。如Depende

22、nt Variable: YMethod: Least SquaresDate: 08/02/04 Time: 01:59Sample: 1 10Included observations: 10VariableCoefficie ntStd. Errort-StatisticProb.C37.224245.7008716.5295710.0002X0.5414140.02674120.246750.0000R-squared0.980858Mean dependent var142.8000Adjusted R-squared0.978465S.D. dependent var49.6539

23、1S.E. of regression7.286559Akaike info criterion6.986796Sum squared resid424.7515Schwarz criterion7.047313Log likelihood-32.93398F-statistic409.9309Durb in-Wats on stat0.628992Prob(F-statistic)0.0000004、参数a 2的假设检验5、补充p值检验在假设检验中,有时会存在如下情况(见图形),在假设检验中,有时会存在如下情况(见图形)由图形可知,对于不同的显著性水平,有可能出现不同的判断结果,这就 需要在

24、接受或拒绝原假设的决策问题上有依据。P值检验就是解决这一类问题。 其含义为:在一个假设检验问题中,拒绝H0的最小显著性水平称为p值。具体 做法如下:对任意指定的a,在与p值比较后可得到如下结论:(1) 如果a值,则在a下拒绝H0。(2) 如果a Vp值,则在a下接受H0。由上述表格中的数据知,截距项估计的p值为0.0002,斜率系数估计的p 值为0,如果给定a =0.05,显然均有0.05大于两个参数估计的p值,则拒绝, 即卩,卩是显著不为零,这与t统计值检验是一致的。12第四节 拟合优度的度量一、拟和优度的意义1、为什么要建立拟和优度指标 建立样本回归函数是对样本散点的一种拟合,因此,各个散

25、点对回归函数或多或少存在偏差(有正有负),如何从整体上反映这种偏差,即提出拟合优度指 标。2、拟和优度的含义,用什么指标反映拟和优度。二、总变差的分解1、总变差分解的过程(教材第 36 页)工(Y - Y )2 =E (Y - Y + Y - Y )2EI八八 八八(Y - Y )2 + 2(Y - Y )(Y - Y) + (Y - Y )2=E (Y - Y )2 +E (Y - Y )2(其中工(Y - Y )(Y - Y) = 0 )记 TSS =工(Y - Y )2,ESS =工(Y - Y )2,RSS = 工(Y - Y )2 ,即, TSS=RSS+ESS 。i2、对TSS=R

26、SS+ESS的说明。TSS =工(Y -Y)2为总离差平方和,反映了iY的样本观测值的平均差异程度;ESS =工(Y-Y)2为Y的估计值与均值的离 差平方和,它反映了解释变量的变化所引起的对 Y 的波动大小,即解释变量在模型中存在的重要程度;RSS =工(Y-Y)2为残差平方和,反映的是Y依据回归直线没有得到解释的变差。因此, ESS 越大说明回归直线拟和效果越好,而 RSS 越小说明回归直线拟和误差越小。三、拟和优度的度一可决系数R21、可决系数的产生过程对总变差的分解工(Y -Y )2 = 工(Y - Y )2 +E & - Y )2ii ii即 TSS=RSS+ESS 。2、对R 2的解

27、释表达式R2 二RSSTSS其中,TSS =工(Y-Y)2,RSS =工(Y-#)2,ESS = 工(f - Y)2。3、R2的变动范围。OW R2 Wl。其中,R2=0和R2=1为两种极端情况,通常为 0 R 2 1。4、可决系数的特性 可决系数是非负的统计量;它是样本观测值的函数,是随抽样而变动的随机变量。四、可决系数与相关系数的关系1、r = 疋 R 2。2、它们之间的区别 意义上的区别; 因果关系有否和是否对称的区别; 取值范围的区别。五、问题虽然R2给出了评价回归模型拟合好坏的度量,但不能根本回答解释变量X对应变量Y是否真正相关,X对Y的影响程度有多大,即当X和Y的样本相关 系数不为

28、零时,是否表示总体的X与Y就真正相关?第五节 回归预测一、回归分析结果的书写表达式Y 二 37.2242 + 0.5414X(6.5296)(20.2468)R2 二 0.9809, S.E. = 7.2866, F 二 409.9309, DW 二 0.6290二、应变量的预测1、预测的一般意义 所谓预测,是指对经济变量未来不确定变化的一种推测。它既包括对未来值 的推测,也包括对样本期内的实际值的拟合。在上述图形中,T1到T2为利用样本的估计期,T2到T3为事后预测期,T3以后为 事前预测期。例如,研究青年完婚对数(百对)x与家具公司销售额之y间的关系,下表 给出家具公司销售额之y对研究青年

29、完婚对数(百对)x的样本回归。数据见下 表,年份1976197719781979198019811982198319841985青完婚对数(百对)3456789101112家具公销售 额(万元)1212.513141715161818.520Depe ndent Variable: YMethod: Least SquaresDate: 09/22/04 Time: 22:13Sample: 1976 1983In cluded observati ons: 8VariableCoefficient Std. Error t-StatisticProb.C9.3869051.0217639.1

30、869710.0001X0.8154760.1482535.5005740.0015R-squared0.834512Mean depe nde nt var 14.68750Adjusted R-squared 0.806930S.D. depe nde nt var 2.186607S.E. of regressio n0.960789Akaike info criteri on 2.970194Sum squared resid5.538690Schwarz criterio n2.990054Log likelihood-9.880774F-statistic30.25631Durbi

31、 n-Watso n stat2.594349Prob(F-statistic)0.001514模型的书写格式为Y 二 9.3869 + 0.8155X (9.1870)(5.5006)R2 二 0.8345, S.E. = 0.960& F 二 30.2563,n 二 8下面进行外推预测及评价,obsYYFY-YF(Y-YF)/Y198418.5000018.357140.142860.0077198520.0000019.172620.837380.04142、预测的类型 点预测; 区间预测; 无条件预测:在回归模型中,所有前定变量的未来值均已知; 有条件预测:前定变量的未来值不知是对Y变

32、量的未来值进行的推测; 事前预测:预测的对象所处的时期是在样本期以外的未来时期; 事后预测:预测对象处在样本数据发生之后的时期,有的时候事后预测时 期就包括在样本期间以内。3、Y的平均值预测 Y的平均值E(Yf丨XF)的点预测为Y =0 +0 X。F F F 1 2 F Y的平均值E(Yf | XF)区间预测,在a 2未知的情况下,Y的平均值E(Yf I XF)的预测区间为f f - T 6 1 +琴厂勺 2, f + T 6 +琴 F - 勺 2 J、F 叫 0 乙(X - X )2 F 农2 fN 乙(X - X )2 丿忆E 2式中,&为b的估计,即b =N 24、Y 的个别值预测 Y个

33、别值的点预测。由于Y是E(Yf I Yf)的无偏估计,并且在大样本下, 有E(Y -Y)=0,所以Y的平均值点预测与其个别值的点预测是一致的,即有相同F的预测公式:Y =0 +0 X。F 12 F+ T & Y个别值的区间预测。八Y fF注意平均值与个别值的预测区间之区别,教材第41页第 42页,见图 2.9。由图形知,Y个别值的区间预测的精度要高于Y的平均值区间预测。5、预测效果的评价。通常由如下几种方法, 预测的均方误差。RMS =丄工(Y - Y )2若 RMS 较大,则说明预测误差较大,但 RMS 是一个绝对量,它的大小与变量 的单位有关,为了避免这一问题带来的不可比性,可采用预测的相对均方误差。 预测的相对均方误差。h y - fRMSP = 工(r r )2一般短期预测精度,要求预测误差的相对均方误差RMSPV0.05,对中长期要求RMSPVO.l。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!