《统计学》线性回归模型课件.ppt

上传人:小** 文档编号:22279140 上传时间:2021-05-23 格式:PPT 页数:92 大小:574.50KB
收藏 版权申诉 举报 下载
《统计学》线性回归模型课件.ppt_第1页
第1页 / 共92页
《统计学》线性回归模型课件.ppt_第2页
第2页 / 共92页
《统计学》线性回归模型课件.ppt_第3页
第3页 / 共92页
资源描述:

《《统计学》线性回归模型课件.ppt》由会员分享,可在线阅读,更多相关《《统计学》线性回归模型课件.ppt(92页珍藏版)》请在装配图网上搜索。

1、1 第八章回归和相关分析 21 导言 3 在自然界和人类社会中,经常会遇到一些变量共处于一个统一体中,他们相互联系,相互制约,在一定条件下相互转化。社会经济现象尤其如此。例如某生产厂家的生产费用由所生产的产品数量和各种生产投入要素的价格等因素所决定。 4 在社会经济现象中,变量之间的关系大致可以分为两种: 1).函数关系 2).统计关系。 5 函数关系:变量之间依一定的函数形式形成的一一对应关系称为函数关系。若两个变量分别记作y和x,则当y 与x之间存在函数关系时,x值一旦被指定,y值就是唯一确定的。函数关系可以用公式确切的反映出来,一般记为y=f(x)。 6 例如,某种商品的销售额(y)与销

2、售量(x)之间的关系,在销售价格(p)一定的条件下,只要给定一个商品销售量,就有一个唯一确定的商品销售额与之对应,用公式表示为y=p(x)。 7 统计关系:两个变量之间存在某种依存关系,但变量Y并不是由变量X唯一确定的,它们之间没有严格的一一对应关系。两个变量之间的这种关系就是统计关系,也称为相关关系。 8 相关关系与函数关系有十分密切的联系。在实际中,由于观察和测量误差等原因,函数关系往往是通过相关关系表现的,而在研究相关关系时,又常用函数关系作为工具,以相应的函数关系数学表达式表现相关关系的一般数量关系。 9 例如:同样收入的家庭,用于食品的消费支出往往并不相同。因为对家庭食品费用的影响,

3、不仅有家庭收入的多少,还有家庭人口,生活习惯等因素,所以,家庭食品费用支出与家庭收入之间不是函数关系,而是相关关系。 10 在含有变量的系统中,考察一些变量对另一些变量的影响,它们之间可能存在一种简单的函数关系,也可能存在一种非常复杂的函数关系。有些变量之间的关系是非确定性的关系,这种关系无法用一个精确的数学来表示。 11 我们需要区分两种主要类型的变量。一种变量相当于通常函数关系中的自变量,它或者能控制或者虽不能控制但可观测,这种变量称为自变量。自变量的变化能波及另一些变量,这样的变量称为因变量。人们通常感兴趣的问题是自变量的变化对因变量的取值有什么样的影响。 12 回归分析正是研究自变量的

4、变动对因变量的变动的影响程度,其目的在于根据已知自变量的变化来估计或预测因变量的变化情况。 13 回归的内容包括如何确定因变量与自变量之间的回归模型;如何根据样本观测数据估计并检验回归模型及未知参数;在众多的自变量中,判断哪些变量对因变量的影响是显著的,哪些变量的影响是不显著的;根据自变量的已知值或给定值来估计和预测因变量的平均值等等。 14 线性回归分析是研究变量与变量之间的线性相关关系。从分析的内容上看,线性回归是建立变量间的拟合线性相关模型,主要用于估计和预测。线性回归模型应用领域极为广泛,在许多领域里都有应用非常成功的例子,它是现代应用统计分析方法中的重要内容之一。 15 一元线性回归

5、模型 16 8.2.1 一元线性回归模型的数学表示式 如果两个变量之间存在相关关系,并且一个变量的变化会引起另一个变量按某一线性关系变化,则两个变量间的关系可以用一元线性回归模型描述。 17 其数学模型为: y= (8-1) 其中,y 为因变量, x为自变量, 为模型参数, 为回归截距, 为回归系数 , 为随机误差项,且N(0, ). x10 2 1,0 0 1 18 在实际问题中,(8-1)中的模型参数 是未知的,通常只能在自变量的一些点上对因变量进行观测,得到一定量的数据,由数据出发对模型进行推断。1,0 19 8.2.2 回归系数 的最小二乘估计。 假定( ), ( ), ,( )为n次

6、独立试验所得到的样本观测值,则有 , i=1,2,n (8-2) 其中i ,i=1,2,n为随机误差项,对i ,i=1,2,n的基本假定是i ,i=1,2,n相互独立,服从N(0, )分布。1,0 11, yx 22, yx nn yx , iii xy 10 2 20 记 Q( )= Q( )是直线y= 对于所有数据点的偏差平方和。 取直线y= 使得 Q( )达到最小 即 Q( )=Q( ),z用y=来估计回归直线,这种方法称为最小二乘法。1,0 ni ii xy1 210 )( 1,0 x10 1,0 1,0 1,0 1,0 x10 21 为求与 分别对应的最小二乘估计 ,注意到Q( )是

7、 的非负二次函数,因此最小值点存在且唯一,应满足以下方程组:1,0 1,0 1,0 1,0 ni iiini ii xxyQ xyQ 1 101 1 100 0)(2 0)(2 22 求解方程组得: 其中 , xy xxn yxyxn ni ni iini ni ini iii 10 1 2121 111 )( )( ni iyny 11 ni ixnx 11 23 8.2.3利用最小二乘法所得到的估计量 有如下性质: (1) 分别是 的无偏估计。(2) 和 的最小二乘估计 和 为“方差最小”线性无偏估计(3) 的无偏估计为 : 1,0 1,0 1,0 0 1 0 1 2 2 )(1 22 n

8、 yys ni ii 24 在实际中,方差 是未知的,因此,可用估计量 来估计 。2 2 2 )( 1 22 n yyni ii 25 例题1、在某类企业中随机抽取10个企业,搜集它们的产量和生产费用情况,获得数据如表1所示: 26 表1 企业产量和生产费用 27 我们可作出散点图,易看出变量x与y之间的关系近似可看作是线性关系,根据表1的数据,利用最小二乘法,求一元线性回归方程, 28 以下列出的为计算表 29 30 = =134.7909+0.3978x为所求的一元回归模型。 7909.1347.773978.07.165 3978.0)(10 )(10 10 101 21012101 1

9、011011 xy xx yxyxi i iii i ii iii x10 y 31 8.2.4 一元线性回归模型的检验 我们根据样本观测值,利用最小二乘法建立起一元线性回归模型 = ,该模型是否满足回归模型的基本假设,还需要进行统计检验。x10 y 32 统计检验应包括两方面的内容:一是回归方程的显著性检验,即反映回归模型 = 对样本观测值的拟合程度如何;一是回归系数的显著性检验,即检验变量y与变量x之间是否能用线性关系来描述;以下介绍三种检验的方法: y x10 33 (1)回归模型的拟合程度的测度 变量y的各个观测点聚集在回归直线 = 周围的紧密程度,称为回归直线对样本数据点的拟合程度,

10、常用可决系数R2来表示。yx10 34 总的离差平方和 SST= = = + 2)( yyi 2)()( yyyy iii 2)()( yyyy iii 2)()( yyyy iii 35 因为 =0 故 SST= 记 SSR= ,SSE= 则 SST=SSR+SSE (8-5) SSR称为回归平方和, SSE称为残差平方和 )( yyyy iii 22 )()( yyyy iii 2)( yyi 2)( ii yy 36 (8-5)可作如下解释:因变量的总变化量(有SST表示)可分成两部分之和,其中一部分是由自变量所引起的变化(由SSR刻画),另一部分是随机误差所引起的变化(由SSE刻画)。

11、变量y的各个观测值点与回归直线越靠近,SSR在SST中所占的比重越大,可见,比值SSR/SST的大小,能反映回归模型拟合程度的优劣。 37 由此,可定义统计量: R2= R2称为“可决系数”,显然,0R21。当R2接近于1时,回归平方和SSR在总的平方和SST中所占的比重大,说明自变量对因变量的影响较大;反之,当R2接近与0时,回归平方和SSR在总的平方和SST中所占的比重小,说明自变量对因变量的影响较小。综上所述,R2越接近与1,说明模型越有效,R2越接近与0,说明模型越无效。应该注意的是,R2通常只用于模型有效性的一个大致的判断。SSTSSR 38 R2称为“可决系数”,显然,0R21。当

12、R2接近于1时,回归平方和SSR在总的平方和SST中所占的比重大,说明自变量对因变量的影响较大;反之,当R2接近与0时,回归平方和SSR在总的平方和SST中所占的比重小,说明自变量对因变量的影响较小。综上所述,R2越接近与1,说明模型越有效,R2越接近与0,说明模型越无效。应该注意的是,R2通常只用于模型有效性的一个大致的判断。 39 可决系数R2只说明了回归方程对样本观察值拟合程度的好坏,却不能表示回归直线估计值与变量y的各实际观察值的绝对离差的数额。估计标准误差则是反映回归估计值与样本实际观察值的平均差异程度的指标,用Syx表示估计标准误差,其计算公式为: Syx = 2 )( 1 2 n

13、 yyni ii 40 若估计标准误差Syx小,表示各实际观察值与回归估计值平均差异小,实际观察点靠近回归直线,回归直线的拟合程度好,代表性高;若样本观察点全部落在直线上,则Syx=0,说明样本实际值与估计值没有差别。若Syx大,则说明回归直线拟合不好,代表性差。 41 估计标准误差也可化简为 Syx = 21 1 1102 n yxyyni ni ni iiii 42 (2)回归系数的显著性检验一元线性回归模型中,一次项系数 是一个关键的量,通过 可反映自变量x的变动对因变量y的影响。若 =0意味着y不随x变动而变动,因此y与x之间不存在线性关系;若 0,说明变量y与x之间存在线性关系;当

14、0时,x对y的影响为正效应;当 = )2(2 nt)2( 2 nt 46 假设的检验决策规则是: 若|t| , 则拒绝接受原假设H0; 若|t| 时说明变量y与x之间存在线性关系;|t| , 则拒绝接受原假设H0;若|t| (1,n-2)时, 则拒绝接受原假设H0 若F (1,n-2)时,回归方程的回归效果是显著的; F (1,8)=11.26, 所以,拒绝接受H0,即生产费用和参量之间存在着十分显著的线性关系。01.0F 01.0F 57 825 一元线性回归模型的应用 回归模型在应用领域里一项重要的研究内容是如何利用回归模型进行预测,预测就是在确定自变量的某一个值时,求相应的因变量y的估计

15、值,其中可分为点预测和区间预测。 58 (1)点预测 点预测是将自变量的预测值代入回归模型=,所得到的因变量y的值作为与相对应的的预测,不难验证,是无偏预测。 59 (2)区间预测 类似于对参数作置信区间估计,可对预测作指定置信水平的预测区间,这样可以以相当大的概率保证预测的“方向”及精度。 60 对于与 相对应的值为 ,由于样本的不得到的回归模型的 , 会不同,通过 = 预测的 ,这个 与 之间总存在一定的抽样误差,可证明 ( ) N0, nx ny0 1 yx10 1 ny 1ny 1ny1 ny 1ny )( )(11( 2212 xx xxn in 61 其中 ,因此, 的概率为1-

16、的 预测区间为 ixnx 1 1ny 221 21 )( )(11. xx xxnty inn 62 因而,对于给定的置信水平1- ,有 , 为 的置信水平100(1 - )%的预测区间。 1ny 22121 )( )(11. xx xxnty inn 22121 )( )(11. xx xxnty inn 63 例题3、依据例题1中所建立的回归模型,给定x0=50(千个)时,试预测y0,并求 =0.05时y0的预测区间。 64 解:当x0=50时, =134.7909+0.397850=154.6809 (千元) = (8)=2.306 =26.3301 所以,(128.3607,181.0

17、209)为y0的置信水平95%的预测区间。0y )2(205.0 nt 205.0t 220205.0 )( )(1011. xx xxt i 65 3 多元线性回归模型及其应用 一元线性回归将影响因变量的自变量限制在一个,但在实际中,社会经济现象的复杂性决定了某一现象的变动往往受多种因素的影响。如某种产品单位成本的高低受产品原材料消耗量,原材料价格,产品产量等多种因素影响;企业的利润受产品销售收入,产品销售成本,期间费用等因素影响,这就需要研究两个或两个以上自变量对因变量的影响。一个因变量与多个自变量之间的线性相关关系称为多元线性回归。 66 8.3.1多元线性回归模型的数学表示式为: y=

18、 (8-6) 其中,y为因变量 , ,i=1,2,n为自变 量. ,i=0,1,,k为回归参数, 为随机变量,且 kk xxx .22110 ix i ),0( 2N 67 8.3.2 参数的最小二乘估计 实际上,回归参数 , , 通常是未知的,需要对其进行估计。 假定对于自变量 , , +和因变量y已得到n次观测,第i 次观测值为( ),i=1,2,n0 1 k1x kx iiki yxx ,.,1 68 于是有 = i=1,2,n 其中, 为相互独立的随机变量,且 。iy iikkii xxx .22110 ii ),0( 2N 69 回归参数 , , 常用最小二乘法来估计, 记 Q( ,

19、 , )=0 1 k0 1 k ni ikkii xxy1 2110 ).( 70 求它的最小值点( ),即 Q( )= Q( , , ) 则 就是 , , 的最小二乘估计。k ,., 10k ,., 10 k ,.,0min 0 1 kk ,., 10 0 1 k 71 令 Q对 , , 的一阶偏导数为零,即可求出最小二乘估计。 (j=1,2,n)0 1 k 0).(2 1 1100 ni ikkii xxyQ 0).(2 1 110 ijni ikkiij xxxyQ 72 将上述方程组整理可得到 (8-7)方程组(8-7)称为“正规方程组”。 i i iki ii kikikikiiki

20、 i ii ii kiikiii i i ikiki ii xyxxxxx xyxxxxx yxxn . . 110 1111101 10 73 记 nyyyY .21 nkn kkxx xx xxX .1 . .1 .1 1 221 111 k .10 n .21 74 则模型(8-6)可表示为 Y=X +正规方程组(8-7)可表示为(XTX) =XTY 75 当k+1阶方阵XTX满秩时,(即等价于r(X)=k+1),可解出 的唯一最小二乘估计这样就得到了y的估计式可以看出,最小二乘估计是y的观测值的线性函数,且是 的无偏估计。YXXX TT 1)( kkxxy . 110 76 因为 E(

21、 )=(XTX)-1XTE(y) =(XTX)-1XTX = 类似于一元线性模型,可证明最小二乘估计 为 的“方差最小”线性无偏估计,“方差最小”可理解为:对 的每个分量,最小二乘估计的方差最小。 77 8.3.3 多元线性回归模型的检验 多元线性回归模型的检验包括两个方面:对回归模型的拟合程度的评价,和回归线性相关关系的检验,方法和一元线性回归类同。 78 8.3.4 多元线性回归模型的应用 在多元线性回归模型中,预测的方法与一元线性回归模型的情况非常类似,建立了线性回归模型 之后,便可用它对有关变量进行预测。kkxxy . 110 79 给定 , , , 对应的因变量记为y0,则y0的点估

22、计可由模型 求得。01x 02x 0kx 001100 . kkxxy 80 若记 ,则 可证明 N 于是 N(0,1) 用 代替 ,便有 t(n-k-1),.,1( 002010 kxxxx 00 xY )( 00 yy )(1,0( 0102 TT xxxx TT xxxx yy 010 00 )(1 TT xxxx yy 010 00 )(1 81 对于给定的 ,的置信度为100(1- )%的置信区间为 0y TT xxxxknty 0100 )(1)1( 2 TT xxxxknty 0100 )(1)1( 2 82 4 回归分析中的一些特殊问题 83 前面我们介绍了线性回归模型的建立和

23、应用,一元线性回归分析在实际中应用并不广泛,而更多的是多元线性回归模型,但在实际中,正确应用线性回归模型分析实际问题并不是一件容易的事。由于有多个自变量,以下我们来介绍回归分析中的一些特殊问题。 84 8.4.1 自变量的选择问题 在建立一个回归模型时,我们要将所有可能对因变量产生影响的自变量考虑到模型中去,而通常在所有备选的自变量中,只有一部分真正对因变量有影响,这样的变量称为有效变量,而其它的则可能对因变量没有影响,称为无效变量。因此需要将有效变量保留在模型中,而无效变量应从模型中去掉,这样就产生了自变量的筛选问题,具体方法略。 85 8.4.2多重共线型问题 在许多场合,如社会研究,时常

24、分析等领域中,自变量是随机的,在这种情况下,自变量之间就会有很强的统计相关性,即多重共线性。由于样本数据间存在着线性相关关系而产生的问题就称为多重共线性问题。因此检验多重共线型问题是必要的,具体方法略。 86 在多重共线性现象中,一种极端情况是自变量间的相关系数为,这种情况称为完全的多重共线性现象。此时,某个自变量可表示为其它自变量的线性组合,则有X的秩小于k+1, XTX的逆不存在。 87 而在建立线性回归接近于零,这时虽然XTX的逆存在且可求出回归参数的唯一的最小二乘估计量,但对应的估计量方差将会随着相关程度的不断增强而增大,回归参数的估计量的方差不断地增加,使得其置信区间不断增大,从而回

25、归系数估计值的精度下降,我们便不能准确的分析有关自变量对因变量的真正影响。另外,估计量的方差增大,也使我们在回归系数检验中容易得到不显著的结果。 88 8.4.3 自相关问题在研究线性模型 i=1,2,n其中假定了随机误差项之间是相互独立的即: N(0, ) = iikkii xxy .110 I 2 n. 1 89 但在实际中,特别是在经济分析中,大多数时间序列的资料都具有时滞性,如投资,收入,消费,就业等,这样的时间序列资料中顺序观测数据之间存在着相关现象,这种相关现象又将反映到 中去,使得随机误差项 之间存在着一定程度的相关关系。随机误差项 与 , ,相关称为自相关, 与 相关称为r阶自相关,而最常见的是一阶自相关,即 与 相关。 i i ii i 1i 2iri 1i 90 以下我们讨论的是一阶自相关问题: 设模型为 (8-8) i=1,2,n 其中满足 0,则 之间存在正自相关现象;若 0,则 之间存在负相关现象。 iii 92 随机误差项 的自相关现象将使得回归参数 不再是最小方差估计量,估计量的方差增大,估计精度将会下降;估计量 不能准确地估计 ,从而会引起与 有关的结论产生错误。 因此,需要弄清随机误差项之间是否存在 自相关现象,具体方法略。 22 2

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!