一元线性回归模型的统计检验概述

上传人:nu****n 文档编号:113776543 上传时间:2022-06-27 格式:DOC 页数:7 大小:383.50KB
收藏 版权申诉 举报 下载
一元线性回归模型的统计检验概述_第1页
第1页 / 共7页
一元线性回归模型的统计检验概述_第2页
第2页 / 共7页
一元线性回归模型的统计检验概述_第3页
第3页 / 共7页
资源描述:

《一元线性回归模型的统计检验概述》由会员分享,可在线阅读,更多相关《一元线性回归模型的统计检验概述(7页珍藏版)》请在装配图网上搜索。

1、2.3 一元线性回归模型的统计检验 回归分析是要通过样本所估计的参数来代替总体的真实参数,或者说是用样本回归线代替总体回归线。尽管从统计性质上已知,如果有足够多的重复抽样,参数的估计值的期望(均值)就等于其总体的参数真值,但在一次抽样中,估计值不一定就等于该真值。那么,在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进一步进行统计检验。主要包括拟合优度检验、变量的显著性检验及参数的区间估计。 一、拟合优度检验拟合优度检验,顾名思义,是检验模型对样本观测值的拟合程度。检验的方法,是构造一个可以表征拟合程度的指标,在这里称为统计量,统计量是样本的函数。从检验对象中计算出该统计量的数

2、值,然后与某一标准进行比较,得出检验结论。有人也许会问,采用普通最小二乘估计方法,已经保证了模型最好地拟合了样本观测值,为什么还要检验拟合程度?问题在于,在一个特定的条件下做得最好的并不一定就是高质量的。普通最小二乘法所保证的最好拟合,是同一个问题内部的比较,拟合优度检验结果所表示优劣是不同问题之间的比较。例如图2.3.1和图2.3.2中的直线方程都是由散点表示的样本观测值的最小二乘估计结果,对于每个问题它们都满足残差的平方和最小,但是二者对样本观测值的拟合程度显然是不同的。 图2.3.1 图2.3.2 1、总离差平方和的分解已知由一组样本观测值,=1,2,n得到如下样本回归直线而的第个观测值

3、与样本均值的离差可分解为两部分之和: (2.3.1)图示出了这种分解,其中,是样本回归直线理论值(回归拟合值)与观测值的平均值之差,可认为是由回归直线解释的部分;是实际观测值与回归拟合值之差,是回归直线不能解释的部分。显然,如果落在样本回归线上,则的第个观测值与样本均值的离差,全部来自样本回归拟合值与样本均值的离差,即完全可由样本回归线解释。表明在该点处实现完全拟合。 Y =来自残差 SRF =总离差 =来自回归 X图对于所有样本点,则需考虑这些点与样本均值离差的平方和。由于 可以证明,所以有 (2.3.2)记,称为总离差平方和(Total Sum of Squares),反映样本观测值总体离

4、差的大小;,称为回归平方和(Explained Sum of Squares),反映由模型中解释变量所解释的那部分离差的大小;,称为残差平方和(Residual Sum of Squares),反映样本观测值与估计值偏离的大小,也是模型中解释变量未解释的那部分离差的大小。 (2.3.2)表明的观测值围绕其均值的总离差平方和可分解为两部分,一部分来自回归线,另一部分则来自随机势力。因此,可用来自回归线的回归平方和占Y的总离差的平方和的比例来判断样本回归线与样本观测值的拟合优度。 读者也许会问,既然反映样本观测值与估计值偏离的大小,可否直接用它作为拟合优度检验的统计量?这里提出了一个普遍的问题,即

5、作为检验统计量的一般应该是相对量,而不能用绝对量。因为用绝对量作为检验统计量,无法设置标准。在这里,即残差平方和,与样本容量关系很大,当n比较小时,它的值也较小,但不能因此而判断模型的拟合优度就好。 2、可决系数统计量 根据上述关系,可以用 (2.3.3)检验模型的拟合优度,称为可决系数(coefficient of determination)。显然,在总离差平方和中,回归平方和所占的比重越大,残差平方和所占的比重越小,则回归直线与样本点拟合得越好。如果模型与样本观测值完全拟合,则有。当然,模型与样本观测值完全拟合的情况是不可能发生的,不可能等于1。但毫无疑问的是该统计量越接近于1,模型的拟

6、合优度越高。在实际计算可决系数时,在已经估计出后,一个较为简单的计算公式为: ()这里用到了样本回归函数的离差形式来计算回归平方和: 。在例的收入-消费支出例中, 说明在线性回归模型中,家庭消费支出总变差(variation)中,由家庭可支配收入的变差解释的部分占97.66%,模型的拟合优度较高。 由(2.3.3)知,可决系数的取值范围为,是一个非负的统计量。它也是随着抽样的不同而不同,即是随抽样而变动的统计量。为此,对可决系数的统计可靠性也应进行检验,这将在第3章中进行。 二、变量的显著性检验 变量的显著性检验,旨在对模型中被解释变量与解释变量之间的线性关系是否显著成立作出推断,或者说考察所

7、选择的解释变量是否对被解释变量有显著的线性影响。 从上面的拟合优度检验中可以看出,拟合优度高,则解释变量对被解释变量的解释程度就高,线性影响就强,可以推测模型线性关系成立;反之,就不成立。但这只是一个模糊的推测,不能给出一个统计上的严格的结论。因此,还必须进行变量的显著性检验。变量的显著性检验所应用的方法是数理统计学中假设检验。 1、假设检验假设检验是统计推断的一个主要内容,它的基本任务是根据样本所提供的信息,对未知总体分布的某些方面的假设作出合理的判断。假设检验的程序是,先根据实际问题的要求提出一个论断,称为统计假设,记为;然后根据样本的有关信息,对的真伪进行判断,作出拒绝或接受的决策。假设

8、检验的基本思想是概率性质的反证法。为了检验原假设是否正确,先假定这个假设是正确的,看由此能推出什么结果。如果导致一个不合理的结果,则表明“假设为正确”是错误的,即原假设不正确,因此要拒绝原假设。如果没有导致一个不合理现象的出现,则不能认为原假设不正确,因此不能拒绝拒绝原假设。概率性质的反证法的根据是小概率事件原理,该原理认为“小概率事件在一次试验中几乎是不可能发生的”。在原假设下构造一个事件,这个事件在“原假设是正确”的条件下是一个小概率事件。随机抽取一组容量为n的样本观测值进行该事件的试验,如果该事件发生了,说明“原假设是正确”是错误的,因为不应该出现的小概率事件出现了。因而应该拒绝原假设。

9、反之,如果该小概率事件没有出现,就没有理由拒绝原假设,应该接受原假设。 2、变量的显著性检验 用以进行变量显著性检验的方法主要有三种:F检验、t检验、z检验。它们的区别在于构造的统计量不同。应用最为普遍的t检验,在目前使用的计量经济学软件包中,都有关于t统计量的计算结果。我们在此只介绍t检验。 对于一元线性回归方程中的,已经知道它服从正态分布 进一步根据数理统计学中的定义,如果真实的未知,而用它的无偏估计量替代时,可构造如下统计量 (2.3.5)则该统计量服从自由度为的分布。因此,可用该统计量作为显著性检验的统计量。如果变量是显著的,那么参数应该显著地不为0。于是,在变量显著性检验中设计的原假

10、设为: 给定一个显著性水平,查分布表(见附录),得到一个临界值。因为分布是双尾分布,所以按照查分布表中的临界值。于是 (这里的已不同于(2.3.5) 式,其中)为原假设下的一个小概率事件。在参数估计完成后,可以很容易计算的数值。如果发生了,则在(1)的置信度下拒绝原假设,即变量X是显著的,通过变量显著性检验。如果未发生,则在(1)置信度下接受原假设,即变量X是不显著的,未通过变量显著性检验。对于一元线性回归方程中的,可构造如下t统计量进行显著性检验: (2.3.6)同样地,该统计量服从自由度为的分布,检验的原假设一般仍为。在例2.1.1及例的收入-消费支出例中,首先计算的估计值于是和的标准差的

11、估计值分别是:t统计量的计算结果分别为: 给定一个显著性水平=0.05,查分布表中自由度为8(在这个例中)、=0.05的临界值,得到2.306。可见,说明解释变量家庭可支配收入在95%的置信度下显著,即通过了变量显著性检验。但,表明在95%的置信度下,无法拒绝截距项为零的假设。三、参数的置信区间 假设检验可以通过一次抽样的结果检验总体参数可能的假设值的范围(最常用的假设为总体参数值为零),但它并没有指出在一次抽样中样本参数值到底离总体参数的真值有多“近”。要判断样本参数的估计值在多大程度上可以“近似”地替代总体参数的真值,往往需要通过构造一个以样本参数的估计值为中心的“区间”,来考察它以多大的

12、可能性(概率)包含着真实的参数值。这种方法就是参数检验的置信区间估计。要判断估计的参数值离真实的参数值有多“近”,可预先选择一个概率,并求一个正数,使得随机区间(random interval)包含参数的真值的概率为1-。即:如果存在这样一个区间,称之为置信区间(confidence interval); 1-称为置信系数(置信度)(confidence coefficient),称为显著性水平(level of significance);置信区间的端点称为置信限(confidence limit)或临界值(critical values)。在变量的显著性检验中已经知道: 这就是说,如果给定

13、置信度,从分布表中查得自由度为的临界值,那么值处在的概率是。表示为: 即 于是得到的置信度下的置信区间是 (2.3.6)在例2.1.1与中,如果给定,查表得: 从假设检验中已得到: , 于是,根据(2.3.6)计算得到、的置信区间分别为 (0.6345,0.9195) (-433.32,226.98)显然,参数的置信区间小于的置信区间。由于置信区间一定程度地给出了样本参数估计值与总体参数真值的“接近”程度,因此置信区间越小越好。如何才能缩小置信区间?从()式不难看出:(1)增大样本容量n。在同样的样本容量下,n越大,t分布表中的临界值越小;同时,增大样本容量,还可使样本参数估计量的标准差减小;(2)提高模型的拟合优度,因为样本参数估计量的标准差与残差平方和呈正比,模型优度越高,残差平方应越小。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!