多元线性回归与最小二乘估计

资源ID：142963904 资源大小：278.28KB 全文页数：26页
资源格式： DOCX 下载积分：25积分

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要25积分

邮箱/手机：
温馨提示：	用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

多元线性回归与最小二乘估计

多元线性回归与最小二乘估计1. 假定条件、最小二乘估计量和高斯一马尔可夫定理多元线性回归模型：乂 = B° + B1% + B22 + + 孔"k-1 + ut（口）其中yt是被解释变量（因变量）,xtj是解释变量（自变量）,ut是随机误差项，知，i = 0, 1,., k - 1是回归参数（通常未知）。对经济问题的实际意义：yt与存在线性关系，xtj, j = 0, 1,. ,k - 1,是yt的重要解释变量。ut代表众多影响yt变化的微小因素。使片的变化偏离了 E（yt）=多元线性回归与最小二乘估计1 .假定条件、最小二乘估计量和高斯一马尔可夫定理多元线性回归模型：（1.1）yt = b° + 1xt1+ 2xt2 +上 1xt k-1+ut其中yt是被解释变量（因变量）,xtj是解释变量（自变量），ut是随机误差项，知，i = 0, 1,., k - 1是回归参数（通常未知）。'对经济问题的实际意义：yt与七存在线性关系，七，j = 0, 1, k - 1,是yt的重要解释变量。ut代表众多影响yt变化的微小因素。使yt的变化偏离了 E（yt） = B° + B & + B 2% +.+ B k- k _决定的k维空间平面。当给定一个样本（yt,写xt2，xtk如，t = 1, 2, ., T时，上述模型表示为y1 = Bo + B 1x11 + B 2x12 +. + B/ k_1 + u1,经济意义：xtj是 yt 的重要解释变量。 / y2=Bo +B1X21 + B2X22 +. + Bk-1X2 k -1 + u2,代数意义：乂与七存在线性关系。几何意义：yt表示一个多维平面。yT =B0 + B 1X T1 + B 2X T2 +. + Bk-1X Tk-1 + uT(1,2)T (T 创)ut未知。x L x LiiijxLxL212 jLLLLx i L x Lx -骣31 k -1 +0x 三b2 k - 1 ±1+L ±Mx 广桫T k-1 (Tr k) k-1(k 1)9TOlli?- /(1.3)(1.4)Y=XB+u,为保证得到最优估计量，回归模型（1.4）应满足如下假定条件。假定随机误差项ut是非自相关的，每一误差项都满足均值为零，方差2相同且为有限值，即骣0 0 ±血O 0 ±Var (u) = E( U U' ) =。2I =。2 ” O 0 ± 桫0 1 ±假定解释变量与误差项相互独立，即E(X U) = 0.假定解释变量之间线性无关。rk(X X = rk(X) = k .其中rk(.)表示矩阵的秩。假定解释变量是非随机的，且当T 一 8时T 1X X 一 Q .其中Q是一个有限值的非退化矩阵。最小二乘(OLS)法的原理是求残差(误差项的估计值)平方和最小。代数上是求极值问题。八八八444minS = (Y - X ° )' (Y - X § ) = Y Y - 0 X Y - Y' X 0 + ° 'X X °=Y 'Y - 2 B 'X Y + B 'X 'X ° .(1.5)因为Y X6是一个标量，所以有Y X6 = ° X 'Yo (1.5)的一阶条件为：十S.=-2X Y + 2X X ° = 0(1.6)十 b化简得X Y = X X °因为(X 'X)是一个非退化矩阵(见假定)，所以有° = (X 'X)-1 X Y(1.7)因为(1.5)的二阶条件十2S抖E = 2 X X > 0(1.8)得到满足，所以(1.7)是(1.5)的解。因为X的元素是非随机的，(X X)-1X是一个常数矩阵，则°是Y的线性组合，为线性估计量。求出°，估计的回归模型写为Y = X 6 + u(1.9).人人人z_ 一人其中° = (°0幻.bk- 1)'是B的估计值列向量，U = (Y -X° )称为残差列向量。因为u = Y - X ° = Y - X (X X)-1X 'Y = I - X (X X)-1 X' Y(1.10)所以ii也是Y的线性组合。°的期望和方差是E( ° ) = E(X 'X)-1 X Y = E(X 'X)-1X '(X B + u)=B + (X X)-1X 'E(w) = BVar( B ) = E( B -B)( fS -B)' = E(X X)-1X' uU X (X X)-1=E(X X)-1X 'b 2IX (X X)-1 =。2(X 'X)-1,(1.12)高斯一马尔可夫定理：若前述假定条件成立，OLS估计量是最佳线性无偏估计量。f具有无偏性。f具有最小方差特性。f具有一致性，渐近无偏性和渐近有效性。2. 残差的方差52= U ' U / (T - k)(1.13)S 2是。2的无偏估计量，E(5 2) =。2。f的估计的方差协方差矩阵是U .Var ( f ) = 52 (X 'X)-1(1.14)3. 多重确定系数(多重可决系数)总平方和SST = 5 T (y - y)2 = Y Y - Ty2, t = 1 t其中y是乂的样本平均数，定义为y = (5 T1 y)/T。回归平方和为ssr = 5 T (y - y)2 = Y'Y - Ty2 t = 1 t其中y的定义同上。残差平方和为sse = 5 T (y - y )2 = 5 t = 1 t t则有如下关系存在，SST = SSR + SSE A A_SSRY'YT - Ty 2r2=一 SSTYY-Ty2(1.15)(1.16)(1.17)(1.18)(1.19)(1.20)显然有0< R 2 < 1。R 2 J1，拟合优度越好。4. 调整的多重确定系数当解释变量的个数增加时，通常R2不下降，而是上升。为调整因自由度减小带来的损失，又定义调整的多重确定系数R 2如下：(1.21)-1 - SSWF = 1 - L)(SST-SSR)= 1 -旦(1 - R2) = SST /(T - 1)7 - k 八 SST )一 T - k /5. OLS估计量的分布若 u N (0,。2I)则每个ut都服从正态分布。于是有YN(XB,。因f也是u的线性组合2I )(见公式1.7)，依据(1.11)和(1.12)有(1.22)八-C。N (B,。2 (X X)-1)(1.23)6.方差分析与F检验与SST相对应，自由度T-1也被分解为两部分，(T-1) = (k-1) + (T- k)回归均方定义为MSR = 竺，误差均方定义为MSE =项当k - 1T - k(1.24)方差来源平方和自由度均方回归SSR = Y ' Y -Ty 2k-1MSR = SSR / (k-1)误差SSE = u' uT-kMSE = SSE / (T-k)总和SST= YY- Ty 2T-1表1.1方差分析表H。：BB 2=B k-1 = 0; H1： B/.不全为零F _ MSR _ SSR /(k - 1 J F =MSE = SSE/(T- kJ "珀(1.25)F检验示意图t检验示意图t(T-k)(1.26)判别规则：若I t次 ta(Tk)接受 H0；若"I > ta(T)拒绝 H。以(Tk)7. t检验(j = 1, 2,，k-1), H1： p.丰 0s(b JJ七寸(b)+1 = KjE( x 1 x)18.知的置信区间(1) 全部,的联合置信区间接受(1.27)F = y(B-P )' (X X) (B-p ) / s2尸仪(k T-k)kA> (/v,)(B-6)' (X X)(B-B)<52 kF (k,抑(2) 单个B.的置信区间B i = &i ±：'+1 5 'a/2(k)-9.预测(1)点预测C = (1 XT+1 1XT+1 2XT+1 k-1 )则T + 1期被解释变量jT+1的点预测式是，它是一个k维椭球。(1.28)(1.29)(1.30)常 1=C6 邻 0 + B 1 Xt+1 1 + +B k-1 Xt+1 k-1(顷)(2) E(*+1)的置信区间预测首先求点预测式C6的抽样分布E(yT+1) = E(CE ) = CP(1.32)Var( yt+1) = Var(C p ) = E(C p - CP ) (C p - CP )'=EC (p -P ) C (p - P ) ' = C E( p - p ) (p - p ) 'C '=C Var( p )C '= C s (X 'X )-1C ' = s C (X X)-1C ',(1.33)因为E服从多元正态分布，所以cB也是一个多元正态分布变量，即=C E N (CP, bC (X 'X) -1C')T+1构成t分布统计量如下H +1- 即 +1)(1.34).AC b - C bs：C(X X)-iC't(T-k)(1.35)置信区间 )C P 土哉(1, T-k) 5C(X X) -1 C'(1.36)(3)单个yT+1的置信区间预测一一一 A. 一yT+1值与点预测值y+1有以下关系二 *+1= y +1+ut+1(1-37)其中ut+1是随机误差项。因为E( yT+1) = E( y t+1+ut+1) = CB(1.38)Var( yT+1) = Var(yT +1) + Var(uT+1) = b 2 C (X 'X)-1C ' +。2= 02(C (X 'X)-1C ' + 1)(1.39)因为p服从多元正态分布，所以yT+1也是一个多元正态分布变量，即yT+1 N(CB, 02C (X X)-iC'+ 1)与上相仿，单个yT+1的置信区间是? "" C ° 土哉(Tk)Sk：C(X' X)-1 C'+1(1.40) (J-儿)计算举例：(见计量经济分析第19-27页，熟悉矩阵运算)10. 预测的评价指标注意，以下6个公式中的et表示的是预测误差，不是残差。可以在样本内、外预测。(1)预测误差。预测误差定义为(2)et = yt-yt, t = T+1, T+2, .相对误差 PE (Percentage Error)。APE = L, t = T+1, T+2, . 匕误差均方根 rms error (Root Mean Squared Error)(4)1 TTa (yt- y)2=1绝对误差平均 MAE (Mean Absolute Error)rms error =1 O T I 入MAE = T a y - yT t= 1 t t相对误差绝对值平均 MAPE (Mean Absolute Percentage Error),1 oT y - yMAPE = t at = 1i1-yt(6) Theil 系数(Theil Coefficent)Theil =r I, t = 1, 2, ., T遇y )2 + ：1 T (y )2、T了yt) Vt t= 1(。)以上6个式子中，yt表示预测值，yt表示实际值。Theil的取值范围是0,1。显然在预测区间内，当y卢yt完全相等时，Theil = 0；当预测结果最差时，Theil = 1。公式中的累加范围是用1至T表示的，当然也可以用于样本外预测评价。11.建模过程中应注意的问题（1）研究经济变量之间的关系要剔除物价变动因素。以上图为例，按当年价格计算，我国1992年的GDP是1980年的5.9倍，而按固定价格计算，我国1992年的GDP是1980年的2.8倍。另外从图中还可看出，1980-1992期间按名义价格计算的GDP曲线一直是上升的，而按不变价格（1980年价格）计算的GDP曲线在1989年出现一次下降。可见研究经济变量应该剔除物价变动因素。（2）依照经济理论以及对具体经济问题的深入分析初步确定解释变量。例：我国粮食产量=f （耕地面积、农机总动力、施用化肥量、农业人口等）。但根据我国目前情况，“耕地面积”不是“粮食产量”的重要解释变量。粮食产量的提高主要来自科技含量的提高。例：关于某市的食用油消费量，文革前常驻人口肯定是重要解释变量。现在则不同，消费水平是重要解释变量，因为食用油供应方式已改变。（3）当引用现成数据时，要注意数据的定义是否与所选定的变量定义相符。例：“农业人口”要区别是“从事农业劳动的人口”还是相对于城市人口的“农业人口”。例：2002年起我国将执行新的规定划分三次产业。即将农、林、牧、副、渔服务业从原第三产业划归第一产业。（4）通过散点图，相关系数，确定解释变量与被解释变量的具体函数关系。（线性、非（5）谨慎对待异常值。不能把建立模型简单化为一个纯数学过程，目的是寻找经济规律。年INV （投资）IMPORT （进口）19912.56200023.4700019922.42970032.2900019936.71240063.99000199415.3760078.75000199521.31000149.1300113.8100106.1500112.20001996 27.370001997 41.710001998 39.78000(6) 过原点回归模型与非过原点回归模型相比有如下不同点。以一元线性过原点模型， y =七孔+ut，为例，Z匡=0不一定成立。原因是正规方程只有一个(不是两个)，(u) y，&= 2工 V "Q (-Q = 0即习 xf = 0，而没有习嶷=0。所以残差和等于零不一定成立。可决系数R 2有时会得负值！原因是有时会有SSE>SST。为维持SSE+SSR=SST，迫使SSR<0。(7) 改变变量的测量单位可能会引起回归系数值的改变，但不会影响t值。即不会影响统计检验结果。(8) 回归模型给出估计结果后，首先应进行F检验。F检验是对模型整体回归显著性的检验。(检验一次，H0: B =B 2="=0; H1： %.不全为零。)若F检验结果能拒绝原假设，应进一步作t检验(检验k次，H0：B. = 0, (j'= 1, 2,，k-1), H1：B.丰0 )。t 检验是对单个解释变量的回归显著性的检验。若回归系数估计值未通过t检验，贝赤相应解释变量应从模型中剔除。剔除该解释变量后应重新回归。按经济理论选择的变量剔出时要慎重。(9) 在作F与t检验时，不要把自由度和检验水平用错(正确查临界值表)。回归系数较大小。若要在多元回归模型中比较解释变量的相对重要性，应该对回归系数作如下变换B * = B s(j j j s(yt)j = 1, 2, . k-1(1.41)其中s(xt)和s(yt)分别表示xt和y/勺样本标准差。6 . *可用来直接比较大小。x - x苏丁邙2*苹丁 + +噌以二元模型为例，标准化的回归模型表示如下(标准化后不存在截距项),"=b * X - 又s(yf)1两侧同乘他)，得 (xt1- X ) + B2* (xt2-X2 ) + - + u* s(yt) s( Xt1)t11心12)所以有B * 也2 =B ,即B * =B.匹乂，i = 1, 2,加1J s(x)J JJ s(七)既是(1.41)式。(11)利用回归模型预测时，解释变量的值最好不要离开样本范围太远。原因是根据预测公式离样本平均值越远，预测误差越大；有时，样本以外变量的关系不清楚。当样本外变量的关系与样本内变量的关系完全不同时，在样本外预测就会发生错误。图3.10给出青铜硬度与锡含量的关系曲线。若以锡含量为0-16%为样本，求得的关系近似是线性的。当把预测点选在锡含量为16%之外时，显然这种预测会发生严重错误。因为锡含量超过16% 之后，青铜的硬度急剧下降，不再遵从锡含量为0-16%时的关系。图3.9 yt的区间预测的变化图3.10青铜硬度与锡含量的关系1210865560657075808590954(12) 回归模型的估计结果应与经济理论或常识相一致。如边际消费倾向估计结果为1.5, 则模型很难被接受。(13) 残差项应非自相关(用DW检验，亦可判断虚假回归)。否则说明仍有重要解释变量被遗漏在模型之外。选用的模型形式不妥。(14) 通过对变量取对数消除异方差。(15) 避免多重共线性。(16) 解释变量应具有外生性，与误差项不相关。(17) 应具有高度概括性。若模型的各种检验及预测能力大致相同，应选择解释变量较少的一个。(18) 模型的结构稳定性要强，超样本特性要好。(19) 世界是变化的，应该随时间的推移及时修改模型。建模案例1：全国味精需求量的计量经济模型(见预测1987年第2期)1.依据经济理论选择影响味精需求量变化的因素依据经济理论一种商品的需求量主要取决于四个因素，即商品价格，代用品价格，消费者收入水平，消费者偏好。模型为：商品需求量=f （商品价格，代用品价格，收入水平，消费者偏好）对于特定商品味精，当建立模型时要对上述四个因素能否作为重要解释变量逐一鉴别。商品价格：味精是一种生活常用品，当时又是一种价格较高的调味品。初步判断价格会对需求量产生影响。所以确定价格作为一个重要解释变量。代用品价格：味精是一种独特的调味品，目前尚没有替代商品。所以不考虑代用品价格这一因素。消费者收入：显然消费者收入应该是一个较重要的解释变量。偏好：由于因偏好不食味精或大量食用味精的情形很少见，所以每人用量只会在小范围内波动，所以不把偏好作为重要解释变量，而归并入随机误差项。分析结果，针对味精需求量只考虑两个重要解释变量，商品价格和消费者收入水平。味精需求量=f （商品价格，收入水平）2. 选择恰当的变量（既要考虑代表性，也要考虑可能性）用销售量代替需求量。因需求量不易度量，味精是自由销售商品，不存在囤积现象，所以销售量可较好地代表需求量。味精商品价格即销售价格。用人均消费水平代替收入水平。因为消费水平与味精销售量关系更密切。消费水平数据在统计年鉴上便于查找（收入水平的资料不全）。味精销售量=f （销售价格，人均消费水平）用平均价格作为销售价格的代表变量。不同地区和不同品牌的味精价格是不一样的，应取平均价格（加权平均最好）。取不变价格的人均消费水平:消费水平都是用当年价格计算的，应用物价指数进行修正。味精销售量=f （平均销售价格，不变价格的消费水平）3. 收集样本数据（抽样调查，引用数据）从中国统计年鉴和有关部门收集样本数据（1972-1982, T = 11）。定义销售量为y （吨），平均销售价格为x1（元/公斤），不变价格的消费水平为x2t （元）。相关系数表如下：一平均销售价格（x1t）不变价格的消费水平（x2t）味精销售量（yt）-0.36710.9771注：临界值r0.05= 0.60。4.确定模型形式并估计参数yt = -144680.9 + 6313.4 x1t + 690.4 x2t(1)(-3.92)(2.17)(15.32)R2 = 0.97, DW = 1.8, t0.05 (8) = 2.3回归系数6313.4无显著性(x1t与x2t应该是负相关，回归系数估计值却为正，可见该估计值不可信）。剔除不显著变量x1t，再次回归，y t = -65373.6 + 642.4 x2t（2）（-10.32）（13.8）R2 = 0.95, DW = 1.5, t0.05 （9） = 2.26问题：6=6313.4,为什么检验结果是P1= 0?量纲的变化对回归结果会造成影响吗？建模案例2：用回归方法估计纯耕地面积（见数理统计与管理1986年第6期）目前对土地的调查大多采用航空摄影，从照片上把各类资源图斑转绘到1:10000的地形图上，然后再从地形图上测绘图斑面积。在处理如何获得实际耕地面积时，关键技术难题是如何将耕地图斑中包含的田埂、土坎、空隙地、宽度小于2米的路、沟、渠等面积从图斑中分离出来。因为它们在航空图片上的分辨率很低，无法直接勾绘，测算。设一个毛耕地图斑面积用S表示，其中不能耕种的面积（扣除面积）用AS表示，则扣除系数，y = A / S =（扣除面积）/ （毛耕地图斑面积）。J i对于每一个图斑，知道精确的扣除系数y，就很容易根据毛耕地图斑面积S计算出纯耕地面积。现在用回归分析方法，寻找影响扣除系数变化的主要因素，从而建立关于“扣除系数”的回归模型。该论文研究的是湖南地区的耕地面积调查。湖南省属丘陵山区，地形复杂，各种地类犬牙交错，影响扣除系数的因素很多。如田埂宽度、地块大小、地块坡度、空隙地、地貌类型等。通过实际调查和分析，初步确定三个主要因素，即“坡度”、“地块面积”和“田埂宽度”论文作者在五个县共调查了 867个样本点，其中水田样本522个，旱田样本345个。具体做法是首先把867个样本数据按“坡度”分成25个等级，然后再把属于同一个等级的样本数据用加权平均的方法求出另两个因素的观测值，“平均地块面积”和“平均田埂宽度”。整理样本数据如下：i （序号）y,（扣除系数）x1；（坡度）x2i （平均地块面积）x3i （平均田埂宽度）14.235601.93000.631824.883811.49180.731237.830021.12530.9731 2539.4151241.06004.0721拟建摸型为，乃=p0 + P1 x1i + P2 x2i +p3 x3i + ui利用样本得估计的回归方程y. = 1.672 + 1.145 X, + 0.608 x2. + 2.081 x3.(7.3)(0.4)(1.85)F = 221.62(F.05(3,21) = 3.07, F.01(3,21) = 4.87, 05(21) = 2.08, 01(21)= 脱4)统计检验结果表明如,也为非重要解释变量。易U除之，用叫对气再次回归得，y. = 3.34 + 1.35 x1.实际的验证结果表明:用只考虑“地块坡度”计算出来的扣除系数估计“纯耕地面积” 完全能满足精度要求，从而为减少野外作业强度(不必再测量“地块面积”和“田埂宽度”)：迅速完成测算，提供了科学依据。+禹+P2% +.+化& k1决定的k维空间平面。当给定一个样本以，写，xtk1), t = 1, 2,，T时，上述模型表示为y】=P0 +P1x11+P2x12 +y2= po +P1X21+P2X22 +' y= Po +P 此时yt与x t.已知P2X T 2 ut未知。-+ pk_ 1x1 k -1 + u1,经济意乂:. +Pk-1x2 k _+u2,代数意义:几何意义:+ + Pk-产 Tk-1 * UTxt,是yt的重要解释变量。yt与xt /存在线性关系。yt表示一个多维平面。(1.2)y1f 1x11Ax1 jAX1 k -1fP 0、y 2二1x21Ax2jAx2 k -1P1MAAAAAAMy T J(T x1)1<x T1Ax TjAxxT k -1 J(T xk)掴 k -1J，Y = X P + u ,f U u2M(1.3)(kx1)'UT "tx1)(1.4)为保证得到最优估计量，回归模型(1.4)应满足如下假定条件。假定随机误差项Ut是非自相关的，每一误差项都满足均值为零，方差6相同且为有限值，即E(u) = 0 =f 1 0 0、Var (u) = E(U U' ) = b2I = b20 0 0、0 0 1 /M ,假定解释变量与误差项相互独立，即E(X U) = 0.假定解释变量之间线性无关。rk(X X) = rk(X) = k .其中rk(.)表示矩阵的秩。假定解释变量是非随机的，且当T 一 8时T- 1X X 一 Q .其中Q是一个有限值的非退化矩阵。最小二乘(OLS)法的原理是求残差(误差项的估计值)平方和最小。代数上是求极值问题。A AminS = (Y - X P )' (Y - X § ) = Y Y - P X Y - Y' X。+ P 'X 'X P(1.5)=Y Y - 2 p X Y + p 'X 'X 6 .因为Y X6是一个标量，所以有Y X6 = P X Y。(1.5)的一阶条件为:dS =-2X Y + 2X X 0 = 0(1.6)化简得AX Y = X X 0因为(X X)是一个非退化矩阵(见假定)，所以有0 = (X X)-1 X Y(1.7)因为(1.5)的二阶条件 a 2s 0 = 2 X X > 0(1.8)得到满足，所以(1.7)是(1.5)的解。因为X的元素是非随机的，(X X)-1X是一个常数矩阵，则0是Y的线性组合，为线性估计量。求出0，估计的回归模型写为Y = X 0 + U(1.9)其中0 =(队0, . 0,)'是0的估计值列向量，u = (Y - X 0 )称为残差列向量。因为 01k -1一八u = Y - X 0 = Y - X (X 'X)-1X 'Y = I - X (X 'X)-1 X' Y(1.10)所以U也是Y的线性组合。0的期望和方差是E( 0 ) = E(X 'X)-1 X 'Y = E(X 'X)-1X '(X0 + u)=0 + (X X)-1X 'E(u) = 0.(1.11)Var( 0 ) = E( 0 -0)( 0 -0)' = E(X X)-1X uu X (X 'X)-1=E(X X)-1X 'b 2I X (X 'X)-1 = b 2(X 'X)-1,(1.12)高斯一马尔可夫定理：若前述假定条件成立，OLS估计量是最佳线性无偏估计量。0具有无偏性。0具有最小方差特性。0具有一致性，渐近无偏性和渐近有效性。2. 残差的方差52= u 0 / (T - k)(1.13)S 2是b 2的无偏估计量，E(5 2) =b 2。0的估计的方差协方差矩阵是AVar( 0 ) = 52 (X 'X)-1(1.14)3. 多重确定系数(多重可决系数)Y = X 0 + u = Y + u(1.15)总平方和SST = » (" y)2 = Y Y - Ty2,其中y是乂的样本平均数，定义为y = 洪1 yt)/T。回归平方和为SSR =乙(y - y)2 = Y ' Y - Ty 2 t=1 t其中y的定义同上。残差平方和为SSE = » (y - y )2 = »u 2 = u'ut=1 t tt=1 t则有如下关系存在，(1.16)(1.17)(1.18)(1.19)R2 =ssr Y，Y - Ty2SST Y Y-Ty 2(1.20)SST = SSR + SSE显然有0 < R 2 < 1。R 2T1，拟合优度越好。4. 调整的多重确定系数当解释变量的个数增加时，通常R2不下降，而是上升。为调整因自由度减小带来的损失，又定义调整的多重确定系数R 2如下：(1.21) = 1 - eT-l)(SST-SSR) = 1 -旦(1 - R 2) SST /(T -1)T - k SSTT - k5. OLS估计量的分布若uN (0, b2l)，则每个ut都服从正态分布。于是有Y N (XP, Q 2I )(1.22)因&也是u的线性组合(见公式1.7)，依据(1.11)和(1.12)有P N (P, Q2(X 'X)-1)(1.23)6.方差分析与F检验与SST相对应，自由度T-1也被分解为两部分，(T-1)= (k -1) + (T- k)(1.24)回归均方定义为MSR表1.1-SSR，误差均方定义为MSE - k -1方差分析表SSET - k方差来源平方和自由度均方回归SSR -Y ' Y -Ty 2k 1MSR - SSR / (k-1)误差总和SSE - u ' uT-kSST- Y Y- Ty 2t-1MSE - SSE / (T-k)H0:P1= P2=Pk-1 = 0; H：Pj 不全为零f= MRMSESSR /(k -1)SSE /(T - k)F，(k-1,T-k)(1.25)F检验示意图t检验示意图7. t检验H0： p. = 0, (j = 1, 2,，k-1), H1： p.丰 0t = SPh = Pj*Var(P) M1=pj,'* 2(X'X)1 j+1 t(T-k) j(1.26)判别规则：若It |< ta(T-k)接受 Ho；若1 t 1 > ta(T-k)拒绝 Ho。以(Tk)8. p,的置信区间(1) 全部P,的联合置信区间接受F = 1(p - B)'(X 趴8 - 6) / * f (k, T-k) k(P - P )' (X 'X) ( P - P ) < S2kF(k,T-k)，它是一个 k 维椭球。(2) 单个p,的置信区间P- P , ± V j+1 S ta/2(T-k).9.预测(1) 点预测C = (1 写1 1写1 2 写1 k-1 )则T + 1期被解释变量*+1的点预测式是，亍T+1= CB = P 0 + B 1 XT+1 1 + + B k-1 XT+1 k-1(2) E(*+1)的置信区间预测首先求点预测式Cp的抽样分布E(异J = E(Cp ) = CPVar( yt+1) = Var(C P ) = E(C P - CP ) (C P - CP )'(1.27)(1.28)(1.29)(1.30)(1.31)(1.32)(1.33)=EC (P -P ) C (P - P ) ' = C E( P - P ) (P - P )'C =C Var( P )C '= C b (X 'X )-1C ' = b C (X X)-1C ', 因为E服从多元正态分布，所以cB也是一个多元正态分布变量，即异+1= C B N(CP,G2C(XX )-1C ')(1.34)构成t分布统计量如下t = yTi1 -E(yT= p- P =t(1.35)s、tC( X' X )T Cs、C X' X) -1C C置信区间C(3 土 t (1Tk) s *C(X'X)-1 C(1.36)w (1,)(3)单个yT+1的置信区间预测yT+1值与点预测值y T+1有以下关系*+1= y T+1+UT+1(捉7)其中uT+1是随机误差项。因为E( *+1) = E( y t+1+Ut+1) = CP(1.38)Var(yT+1) = Var(yt+1) + Var(uT+1) = b 2 C (X 'X)-1C' + b 2=b 2(C (X 'X)-1C ' + 1)(1.39)因为3服从多元正态分布，所以yT+1也是一个多元正态分布变量，即yT+1 N (CP, b2C (X 'X) -1C'+ 1)与上相仿，单个yT+1的置信区间是一 q.1C P + ta/2C (X' X)-1 C '+1(1.40)w/匕(上儿)计算举例：(见计量经济分析第19-27页，熟悉矩阵运算)10.预测的评价指标注意，以下6个公式中的et表示的是预测误差，不是残差。可以在样本内、外预测。(3) 预测误差。预测误差定义为et = yt-yt, t = T+1, T+2, .(4) 相对误差 PE (Percentage Error)。y yPE =, t = T+1, T+2, .、口、yt(3) 误差均方根 rms error (Root Mean Squared Error)rms error = (y - y )2 T t "1t=1(4) 绝对误差平均 MAE (Mean Absolute Error)MAE =乏 | y y |t=1(5) 相对误差绝对值平均 MAPE (Mean Absolute Percentage Error)MAPE = - f y T t=12 t=1(6) Theil 系数(Theil Coefficent)Theil = :-f2T 七 +'Tt=1以上6个式子中，yt表示预测值，yt表示实际值。Theil的取值范围是0,1。显然在预测区间内，当y卢yt完全相等时，Theil = 0；当预测结果最差时，Theil = 1。公式中的累加范围是用1至T表示的，当然也可以用于样本外预测评价。11. 建模过程中应注意的问题（1）研究经济变量之间的关系要剔除物价变动因素。以上图为例，按当年价格计算，我国1992年的GDP是1980年的5.9倍，而按固定价格计算，我国1992年的GDP是1980年的2.8倍。另外从图中还可看出，1980-1992期间按名义价格计算的GDP曲线一直是上升的，而按不变价格（1980年价格）计算的GDP曲线在1989年出现一次下降。可见研究经济变量应该剔除物价变动因素。（2）依照经济理论以及对具体经济问题的深入分析初步确定解释变量。例：我国粮食产量=/（耕地面积、农机总动力、施用化肥量、农业人口等）。但根据我国目前情况，“耕地面积”不是“粮食产量”的重要解释变量。粮食产量的提高主要来自科技含量的提高。例：关于某市的食用油消费量，文革前常驻人口肯定是重要解释变量。现在则不同，消费水平是重要解释变量，因为食用油供应方式已改变。（3）当引用现成数据时，要注意数据的定义是否与所选定的变量定义相符。例：“农业人口”要区别是“从事农业劳动的人口”还是相对于城市人口的“农业人口”。例：2002年起我国将执行新的规定划分三次产业。即将农、林、牧、副、渔服务业从原第三产业划归第一产业。（4）通过散点图，相关系数，确定解释变量与被解释变量的具体函数关系。（线性、非线性、无关系）年INV (投资)IMPORT (进口)19912.56200023.4700019922.42970032.2900019936.71240063.99000199415.3760078.75000199521.31000149.1300199627.37000113.8100199741.71000106.1500199839.78000112.2000(6) 过原点回归模型与非过原点回归模型相比有如下不同点。以一元线性过原点模型，乂 =禹气+ ut，为例，Z矿=0不一定成立。原因是正规方程只有一个(不是两个)，合(Z u 2) t一八邮即Zu产=0，而没有Zut 二 °。所以残差和等于零不一定成立。可决系数R2有时会得负值！原因是有时会有SSE>SST。为维持SSE+SSR=SST，迫使SSR<0。(7) 改变变量的测量单位可能会引起回归系数值的改变，但不会影响t值。即不会影响统计检验结果。(8) 回归模型给出估计结果后，首先应进行F检验。F检验是对模型整体回归显著性的检验。(检验一次，禹=P2=.=吼=0; H1: p.不全为零。)若F检验结果能拒绝原假设，应进一步作t检验(检验k次，H。： P. = 0, (j = 1, 2, ., k-1), H 1： P.更0)。t检验是对单个解释变量的回归显著性的检验。若回归系数估计值未通过t检验，贝在相应解释变量应从模型中剔除。剔除该解释变量后应重新回归。按经济理论选择的变量剔出时要慎重。(9) 在作F与t检验时，不要把自由度和检验水平用错(正确查临界值表)。回归系数的t检验是双端检验，但t检验表的定义有P(| 11 > ta) = a, P( t < ta) = a-t 一a(T-k)ta(T-k)F， a(k-1,T-k)(10) 对于多元回归模型，当解释变量的量纲不相同时，不能在估计的回归系数之间比较大小。若要在多元回归模型中比较解释变量的相对重要性，应该对回归系数作如下变换B * = B 勺，j= 1, 2,k-1(1.41)J j s(七)其中s(xt)和s(yt)分别表示Xt和乂的样本标准差。B j *可用来直接比较大小。以二元模型为例，标准化的回归模型表示如下(标准化后不存在截距项)，y 一 y x 一 x x 一 x.Zt_2- = B * 1 + B* 2 + . + u *S(七)S(xt1)SE 2)两侧同乘町)，得(a； _ * B * s'，/B #(yt y ) = B1 、(xt1 x1) + B2、(xt2 x2)+ " + ut s(yt)sxtvsxt 2所以有Bj*i = 1, 2, . k-1心=Bj,即Bi；,s (xtj) j j j s( yt)既是(1.41)式。(11)利用回归模型预测时，解释变量的值最好不要离开样本范围太远。原因是根据预测公式离样本平均值越远，预测误差越大；有时，样本以外变量的关系不清楚。当样本外变量的关系与样本内变量的关系完全不同时，在样本外预测就会发生错误。图3.10给出青铜硬度与锡含量的关系曲线。若以锡含量为0-16%为样本，求得的关系近似是线性的。当把预测点选在锡含量为16%之外时，显然这种预测会发生严重错误。因为锡含量超过16% 之后，青铜的硬度急剧下降，不再遵从锡含量为0-16%时的关系。图3.9 yt的区间预测的变化图3.10青铜硬度与锡含量的关系(12) 回归模型的估计结果应与经济理论或常识相一致。如边际消费倾向估计结果为1.5, 则模型很难被接受。(13) 残差项应非自相关(用DW检验，亦可判断虚假回归)。否则说明仍有重要解释变量被遗漏在模型之外。选用的模型形式不妥。(14) 通过对变量取对数消除异方差。(15) 避免多重共线性。(16) 解释变量应具有外生性，与误差项不相关。(17) 应具有高度概括性。若模型的各种检验及预测能力大致相同，应选择解释变量较少的一个。(18) 模型的结构稳定性要强，超样本特性要好。(19) 世界是变化的，应该随时间的推移及时修改模型。建模案例1：全国味精需求量的计量经济模型(见预测1987年第2期)1. 依据经济理论选择影响味精需求量变化的因素依据经济理论一种商品的需求量主要取决于四个因素，即商品价格，代用品价格，消费者收入水平，消费者偏好。模型为：商品需求量=f (商品价格，代用品价格，收入水平，消费者偏好)对于特定商品味精，当建立模型时要对上述四个因素能否作为重要解释变量逐一鉴别。商品价格：味精是一种生活常用品，当时又是一种价格较高的调味品。初步判断价格会对需求量产生影响。所以确定价格作为一个重要解释变量。代用品价格：味精是一种独特的调味品，目前尚没有替代商品。所以不考虑代用品价格这一因素。消费者收入：显然消费者收入应该是一个较重要的解释变量。偏好：由于因偏好不食味精或大量食用味精的情形很少见，所以每人用量只会在小范围内波动，所以不把偏好作为重要解释变量，而归并入随机误差项。分析结果，针对味精需求量只考虑两个重要解释变量，商品价格和消费者收入水平。味精需求量=f (商品价格，收入水平)2. 选择恰当的变量(既要考虑代表性，也要考虑可能性)用销售量代替需求量。因需求量不易度量，味精是自由销售商品，不存在囤积现象，所以销售量可较好地代表需求量。味精商品价格即销售价格。用人均消费水平代替收入水平。因为消费水平与味精销售量关系更密切。消费水平数据在统计年鉴上便于查找(收入水平的资料不全)。味精销售量=f (销售价格，人均消费水平)用平均价格作为销售价格的代表变量。不同地区和不同品牌的味精价格是不一样的，应取平均价格（加权平均最好）。取不变价格的人均消费水平:消费水平都是用当年价格计算的，应用物价指数进行修正。味精销售量=f （平均销售价格，不变价格的消费水平）3.收集样本数据（抽样调查，引用数据）从中国统计年鉴和有关部门收集样本数据（1972-1982, T = 11）。定义销售量为yt （吨），平均销售价格为x1t （元/公斤），不变价格的消费水平为x2t （元）。相关系数表如下：一平均销售价格（x1t）不变价格的消费水平（x2t）味精销售量（yt）-0.36710.9771注：临界值 r0.05 （9） = 0.60。4.确定模型形式并估计参数y 七=-144680.9 + 6313.4 x1t + 690.4 x2t（1）（-3.92）（2.17）（15.32）R2 = 0.97, DW = 1.8, t0.05 （8） = 2.3回归系数6313.4无显著性（x1t与x2t应该是负相关，回归系数估计值却为正，可见该估计值不可信）。剔除不显著变量x1t，再次回归，y 七=-65373.6 + 642.4 x2t（2）（-10.32）（13.8）R2 = 0.95, DW = 1.5, t0.05 （9） = 2.26问题：&=6313.4,为什么检验结果是P1= 0？量纲的变化对回归结果会造成影响吗？建模案例2：用回归方法估计纯耕地面积（见数理统计与管理1986年第6期）目前对土地的调查大多采用航空摄影，从照片上把各类资源图斑转绘到1:10000的地形图上，然后再从地形图上测绘图斑面积。在处理如何获得实际耕地面积时，关键技术难题是如何将耕地图斑中包含的田埂、土坎、空隙地、宽度小于2米的路、沟、渠等面积从图斑中分离出来。因为它们在航空图片上的分辨率很低，无法直接勾绘，测算。设一个毛耕地图斑面积用S表示，其中不能耕种的面积（扣除面积）用AS表示，则扣除系数，y. = A / S =（扣除面积）/ （毛耕地图斑面积）。I对于每一个图斑，知道精确的扣除系数y，就很容易根据毛耕地图斑面积S计算出纯耕地面积。现在用回归分析方法，寻找影响扣除系数变化的主要因素，从而建立关于“扣除系数”的回归模型。该论文研究的是湖南地区的耕地面积调查。湖南省属丘陵山区，地形复杂，各种地类犬牙交错，影响扣除系数的因素很多。如田埂宽度、地块大小、地块坡度、空隙地、地貌类型等。通过实际调查和分析，初步确定三个主要因素，即“坡度”、“地块面积”和“田埂宽度”论文作者在五个县共调查了 867个样本点，其中水田样本522个，旱田样本345个。具体做法是首先把867个样本数据按“坡度”分成25个等级，然后再把属于同一个等级的样本数据用加权平均的方法求出另两个因素的观测值，“平均地块面积”和“平均田埂宽度”。整理样本数据如下：i (序号)y,(扣除系数)% (坡度)x2i (平均地块面积)x3i (平均田埂宽度)14.235601.93000.631824.883811.49180.731237.830021.12530.9731 2539.4151241.06004.0721拟建摸型为，叫=P0 + P1 七 + P2 X2i +P3 X3i + Ui利用样本得估计的回归方程叫=1.672 + 1.145% + 0.608 x2i + 2.081 x3i(7.3)(0.4)(1.85) F = 221.62(F.05(3,21) = 3.07, F.01(3,21) = 4.87, 05(21) = 2.08, 01(21) =2.84)统计检验结果表明x2i, x3i.为非重要解释变量。易U除之，用叫对气再次回归得，

注意事项

本文（多元线性回归与最小二乘估计）为本站会员（lis****211）主动上传，装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知装配图网（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。