5自变量选择与逐步回归-课件

上传人:风*** 文档编号:240601576 上传时间:2024-04-24 格式:PPT 页数:44 大小:287.50KB
收藏 版权申诉 举报 下载
5自变量选择与逐步回归-课件_第1页
第1页 / 共44页
5自变量选择与逐步回归-课件_第2页
第2页 / 共44页
5自变量选择与逐步回归-课件_第3页
第3页 / 共44页
资源描述:

《5自变量选择与逐步回归-课件》由会员分享,可在线阅读,更多相关《5自变量选择与逐步回归-课件(44页珍藏版)》请在装配图网上搜索。

1、第第5章章 自变量选择与逐步回归自变量选择与逐步回归信计学院统计系信计学院统计系 沈菊红沈菊红1第第5章章 自变量选择与逐步回归自变量选择与逐步回归自变量选择对估计和预测的影响自变量选择对估计和预测的影响自变量选择的准则自变量选择的准则逐步回归逐步回归 前进法前进法 后退法后退法 逐步回归法逐步回归法2说说 明明我们在建立回归模型时,首要问题是如何确定回归自我们在建立回归模型时,首要问题是如何确定回归自变量。如果遗漏了某些重要的变量,回归方程的效果变量。如果遗漏了某些重要的变量,回归方程的效果肯定不会好;如果考虑过多的自变量,在这些变量中,肯定不会好;如果考虑过多的自变量,在这些变量中,某些变

2、量可能和其他变量有很大程度的重叠。这样的某些变量可能和其他变量有很大程度的重叠。这样的话,会增大计算量,回归方程稳定性也很差,并且直话,会增大计算量,回归方程稳定性也很差,并且直接影响回归方程的应用。接影响回归方程的应用。3一一 自变量选择对估计和预测的影响自变量选择对估计和预测的影响1.全模型和选模型全模型和选模型2.设对因变量有影响的因素共有设对因变量有影响的因素共有m个,由因变个,由因变量量y3.和和m个自变量个自变量 构成的回归模型为构成的回归模型为(5.1)称模型称模型(5.1)为全模型。为全模型。如果从所有可供选择的如果从所有可供选择的m个变量中挑选出个变量中挑选出p个,记个,记为

3、为 ,由所选的,由所选的p个自变量组成的回归模个自变量组成的回归模型为型为(5.2)4相对全模型而言,称相对全模型而言,称(5.2)式为选模型式为选模型 自变量的选择问题可以看成是对一个实际问题自变量的选择问题可以看成是对一个实际问题是用是用(5.1)式全模型还是用式全模型还是用(5.2)式选模型去描述。式选模型去描述。模型选择不当会给参数估计和预测带来不良影模型选择不当会给参数估计和预测带来不良影响。为了方便,把模型响。为了方便,把模型(5.1)式的参数向量式的参数向量 和和 记为记为5把模型把模型(5.2)式的参数向量式的参数向量 和和 记为记为62 自变量选择对预测的影响自变量选择对预测

4、的影响全模型与选模型全模型与选模型全模型正确,误用选模型全模型正确,误用选模型选模型正确,误用全模型选模型正确,误用全模型所有m个变量m个变量中选择p个变量7全模型正确,误用选模型的情况全模型正确,误用选模型的情况选模型回归系数的选模型回归系数的OLS是全模型相应参是全模型相应参数的有偏估计数的有偏估计选模型的预测有偏选模型的预测有偏8全模型正确,误用选模型的情况全模型正确,误用选模型的情况选模型的参数估计方差较小选模型的参数估计方差较小选模型的预测残差方差较小选模型的预测残差方差较小9全模型正确,误用选模型的情况全模型正确,误用选模型的情况在在 条件下,条件下,选模型预测的均方误差比全模型预

5、测的方差小选模型预测的均方误差比全模型预测的方差小全模型估计102 自变量选择对预测的影响自变量选择对预测的影响全模型正确而误用选模型的情况全模型正确而误用选模型的情况 当全模型正确时,而我们舍去了当全模型正确时,而我们舍去了m-p个自变量,个自变量,用剩下的用剩下的p个自变量去建立选模型,参数估计值是个自变量去建立选模型,参数估计值是全模型相应参数的有偏估计,用其作预测,预测值全模型相应参数的有偏估计,用其作预测,预测值也是有偏的;也是有偏的;用选模型作预测,残差的方差比用全模型去作预用选模型作预测,残差的方差比用全模型去作预测的方差小;测的方差小;即使全模型正确,但如果其中有一些自变量对因

6、即使全模型正确,但如果其中有一些自变量对因变量影响较小或回归系数方差过大,我们丢掉这些变量影响较小或回归系数方差过大,我们丢掉这些变量后,用选模型去预测,可以提高预测的精度。变量后,用选模型去预测,可以提高预测的精度。11选模型正确,误用全模型的情况选模型正确,误用全模型的情况全模型的预测值是有偏估计全模型的预测值是有偏估计从预测方差的角度看,选模型的预测方从预测方差的角度看,选模型的预测方差小于全模型的预测方差差小于全模型的预测方差12 从均方预测误差的角度看,选模型的均方从均方预测误差的角度看,选模型的均方 预测误差小于全模型的均方预测误差预测误差小于全模型的均方预测误差132 自变量选择

7、对预测的影响自变量选择对预测的影响选模型正确而误用全模型的情况选模型正确而误用全模型的情况 如果选模型正确,从无偏性的角度看,选模型的如果选模型正确,从无偏性的角度看,选模型的 预测值预测值 是因变量新值是因变量新值 的无偏估计,而全模型的无偏估计,而全模型的预测值的预测值 是是 的有偏估计;的有偏估计;从预测方差的角度看,选模型的预测方差小于全从预测方差的角度看,选模型的预测方差小于全模型的预测方差;模型的预测方差;从均方预测误差的角度看,全模型的预测误差大从均方预测误差的角度看,全模型的预测误差大于选模型的预测误差。于选模型的预测误差。14选择自变量的基本指导思想是:少而精选择自变量的基本

8、指导思想是:少而精剔除可有可无的自变量。剔除可有可无的自变量。以估计量的有以估计量的有偏性为代价,用选模型估计的保留变量偏性为代价,用选模型估计的保留变量的回归系数的方差小,对于所预测的因的回归系数的方差小,对于所预测的因变量的方差也小。变量的方差也小。15二二 所有子集回归所有子集回归选模型的个数选模型的个数残差平方和最小残差平方和最小?复决定系数最大复决定系数最大?变量越多越好16选择回归子集的准则选择回归子集的准则自由度调整复决定系数达到最大;自由度调整复决定系数达到最大;回归误差项方差估计(残差均方)最小:回归误差项方差估计(残差均方)最小:17什么是自由度什么是自由度模型中样本值可以

9、自由变动的个数,称模型中样本值可以自由变动的个数,称为自由度为自由度自由度自由度=样本个数样本个数 样本数据受约束样本数据受约束条件条件(方程方程)的个数的个数例如,样本数据个数为例如,样本数据个数为n,它们受,它们受k个方个方程的约束(系数矩阵秩为程的约束(系数矩阵秩为k),那么,自),那么,自由度由度df=n-k18举例举例:SST、SSR、SSE的自由度的自由度19 对应于平方和分解的自由度的分解对应于平方和分解的自由度的分解SST =SSR +SSE n-1 1 n-2总自由度总自由度dfT 回归自由度回归自由度dfR 残差自由度残差自由度dfE 自由度分解:自由度分解:dfT=dfE

10、+dfR20选择回归子集的准则选择回归子集的准则w赤池信息量赤池信息量AIC最小:根据最小:根据极大似然估计原理极大似然估计原理w正态经典回归模型的选择正态经典回归模型的选择反映回归方程的拟合精度反映回归方程的拟合精度模型复杂度模型复杂度21选择回归子集的准则选择回归子集的准则wCP统计量最小统计量最小(mallows,1964)w从预测角度提出:预测误差最小从预测角度提出:预测误差最小22三三 逐步回归逐步回归在多元线性回归分析中,并不是所有自变量对因在多元线性回归分析中,并不是所有自变量对因变量有显著的影响。变量有显著的影响。问题:如何挑选出对因变量有显著影响的自变量问题:如何挑选出对因变

11、量有显著影响的自变量?变量的所有可能子集构成变量的所有可能子集构成 个回归方程,当自个回归方程,当自变量个数较多时,要求出所有可能的回归方程是变量个数较多时,要求出所有可能的回归方程是非常困难的。非常困难的。23三、三、逐步回归逐步回归w前进法前进法:少到多少到多w后退法后退法:多到少多到少w逐步回归逐步回归剔除xj 后回归平方和24前进法前进法:少到多少到多w1.建立建立m个一元线性回归方程,取最大的个一元线性回归方程,取最大的则Xj进入方程一元25前进法前进法:少到多少到多w2.建立建立m-1个二元线性回归方程,取最大的个二元线性回归方程,取最大的w直到所有未引入方程的自变量直到所有未引入

12、方程的自变量F值均小于值均小于 则Xj进入方程二元为止。为止。26例题分析例题分析输出结果输出结果5.32728从输出结果中看到,前进法依次引入了变量从输出结果中看到,前进法依次引入了变量 ,最优回归模型为,最优回归模型为29这是全模型的复决定系数表,比较它和选模型的复这是全模型的复决定系数表,比较它和选模型的复决定系数。决定系数。30后退法后退法(与前进法相反与前进法相反):多到少:多到少w1.用全部用全部m个变量建立一个回归方程,对个变量建立一个回归方程,对m个个回归系数进行回归系数进行F检验,取最小的检验,取最小的则则X Xj j 剔出方程剔出方程m元31后退法:多到少后退法:多到少w2

13、.对剩下的对剩下的m-1个自变量建立回归方程,取最小的个自变量建立回归方程,取最小的w直到方程中所剩余的自变量直到方程中所剩余的自变量F值均大于值均大于 则Xj进入方程m-1元为止。为止。32例题分析例题分析输出结果输出结果5.4【例【例5.4】对例对例3.1国际旅游外汇收入国际旅游外汇收入y关于第三产业关于第三产业的的12个变量作回归的数据,用后退法做变量选择,取个变量作回归的数据,用后退法做变量选择,取3334Coefficients35由输出结果看到:模型由输出结果看到:模型1是全模型,从模型是全模型,从模型2至模型至模型8依次剔除变量依次剔除变量 ,最优回归子集,最优回归子集模型模型8

14、的回归方程为的回归方程为复决定系数复决定系数 ,而全模型的复决,而全模型的复决定系数定系数 36逐步回归:有进有出逐步回归:有进有出前进法和后退法的不足(前进法和后退法的不足(自变量间相关时自变量间相关时):):n前者:只考虑引进,不考虑剔除前者:只考虑引进,不考虑剔除n后者:一旦剔除一棍子打死后者:一旦剔除一棍子打死引入一个自变量后,对已选入的自变量逐个检引入一个自变量后,对已选入的自变量逐个检查,保证每次引入前方程只包含显著变量查,保证每次引入前方程只包含显著变量引入自变量的显著性水平低于剔除自变量的显引入自变量的显著性水平低于剔除自变量的显著性水平著性水平 :避免死循环:避免死循环37逐

15、步回归法逐步回归法逐步回归的基本思想是有进有出。逐步回归的基本思想是有进有出。具体做法是将变量一个一个引入,当每引入一个具体做法是将变量一个一个引入,当每引入一个自变量后,对已选入的变量要进行逐个检验,当自变量后,对已选入的变量要进行逐个检验,当原引入的变量由于后面变量的引入而变得不再显原引入的变量由于后面变量的引入而变得不再显著时,要将其剔除。引入一个变量或从回归方程著时,要将其剔除。引入一个变量或从回归方程中剔除一个变量,为逐步回归的一步,每一步都中剔除一个变量,为逐步回归的一步,每一步都要进行要进行F检验,以确保每次引入新的变量之前回归检验,以确保每次引入新的变量之前回归方程中只包含显著

16、的变量。方程中只包含显著的变量。38此过程反复进行,直到即无显著的自变量选入此过程反复进行,直到即无显著的自变量选入回归方程,也无不显著自变量从方程中剔除为回归方程,也无不显著自变量从方程中剔除为止。止。逐步回归法避免了前进法和后退法各自的缺陷,逐步回归法避免了前进法和后退法各自的缺陷,保证了最后所得的回归子集是最优回归子集。保证了最后所得的回归子集是最优回归子集。39例题分析例题分析【续例【续例5.4】用逐步回归法作变量选择,取】用逐步回归法作变量选择,取Model SummaryModelRR SquareAdjusted R SquareStd.Error of the Estimate

17、10.7410.5490.533455.92820.8350.6970.675380.44030.8600.7390.710359.33540.8850.7830.749334.04450.9080.8240.789306.83960.9010.8120.783310.91070.8890.7910.768321.507输出结果输出结果5.540ANOVAModel Sum of SquaresdfMean SquareFSig.1Regression7,329,802.217,329,802.235.2610.000Residual6,028,236.529207,870.22Total13

18、,358,039302Regression9,305,460.224,652,730.132.1470.000Residual4,052,578.428144,734.94Total13,358,039303Regression9,871,760.233,290,586.725.4840.000Residual3,486,278.627129,121.43Total13,358,039304Regression10,456,82042,614,204.923.4280.000Residual2,901,218.926111,585.34Total13,358,039305Regression1

19、1,004,290.52,200,858.123.3760.000Residual2,353,748.22594,149.928Total13,358,039306Regression10,844,74542,711,186.328.0470.000Residual2,513,293.42696,665.129Total13,358,039307Regression10,567,12833,522,376.134.0760.000Residual2,790,910.527103,367.06Total13,358,0393041Model Unstandardized Coefficients

20、Standardized CoefficientstSig.BStd.ErrorBeta1 (Constant)-209.535124.469-1.6830.103X76.9071.1630.7415.9380.0002 (Constant)-96.142108.300-0.8880.382X713.7912.1011.4796.5640.000X4-2.5200.682-0.832-3.6950.0013 (Constant)-174.886108.984-1.6050.120X711.1522.3511.1964.7440.000X4-2.0340.685-0.672-2.9700.006

21、X1010.7615.1390.2602.0940.0464 (Constant)-228.815104.015-2.2000.037X78.7862.4170.9423.6350.001X4-3.2610.832-1.077-3.9190.001X1013.8644.9650.3352.7920.010X32.8491.2440.6472.2900.0305 (Constant)-140.625102.304-1.3750.181X73.9103.0030.4191.3020.205X4-1.9970.927-0.660-2.1540.041X1018.4314.9390.4463.7320

22、.001X35.0901.4731.1573.4550.002X11-7.4423.086-0.551-2.4110.024Coefficients42续前表续前表(Constant)-127.159103.130-1.2330.229X4-1.2890.761-0.426-1.6950.102x1022.6503.7760.5485.9980.000 x36.3751.1081.4485.7530.000 x11-10.1482.312-0.751-4.3980.000(Constant)-117.497106.482-1.1030.280 x1021.4793.8390.5195.5950.000 x34.9750.7641.1306.5160.000 x11-11.2642.292-0.834-4.9160.000从本例逐步回归的选元过程可以看出逐步回归方法的有进有出从本例逐步回归的选元过程可以看出逐步回归方法的有进有出的思想,在第一步引入的的思想,在第一步引入的 在第六步又被剔除了;同样,在第在第六步又被剔除了;同样,在第二步引入的二步引入的 在第七步被剔除了。该结果说明自变量间具有在第七步被剔除了。该结果说明自变量间具有相相关性关性;自变量之间的;自变量之间的相关性程度严重相关性程度严重时称为时称为多重共线性多重共线性。43谢谢

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!