第八章相关与回归分析

上传人:无*** 文档编号:223222374 上传时间:2023-07-16 格式:DOC 页数:17 大小:653.50KB
收藏 版权申诉 举报 下载
第八章相关与回归分析_第1页
第1页 / 共17页
第八章相关与回归分析_第2页
第2页 / 共17页
第八章相关与回归分析_第3页
第3页 / 共17页
资源描述:

《第八章相关与回归分析》由会员分享,可在线阅读,更多相关《第八章相关与回归分析(17页珍藏版)》请在装配图网上搜索。

1、第八章 相关与回归分析客观现象总是普遍联系和相互依存的,分析认识变量之间的依存关系是统计学研究的重要内容之一。在方差分析中我们讨论了分类型变量与数值型变量的关系,本章将讨论数值型变量之间的关系,主要内容是:测度数值型变量之间关系紧密程度的相关系数及其检验、揭示变量间依存关系的回归方程的建立及其显著性检验。第一节 相关分析与回归分析概述一、变量间的关系客观现象总是相互联系和相互依存的,客观现象之间的数量联系大致分为两种:函数关系和相关关系。当一个变量或几个变量取一定的值时,另一个变量有确定的值与之对应,我们称这种关系为函数关系。例如,在价格P一定的情况下,某种商品的销售收入Y与该商品的销售量X之

2、间的关系可用Y=PX表示,当销售量取一定的值时,销售收入有确定的值与之对应,这就是函数关系。一般把作为影响因素的变量称为自变量,把发生对应变化的变量称为因变量。当一个变量或几个变量取一定的值时,与之对应的另一个变量的取值不确定,但它仍然按照某种规律在一定的范围内变化,这种变量之间非严格的依存关系我们称为相关关系,记为,其中为自变量,为因变量。例如:人们的收入和消费、劳动生产率与工资水平、商品流通规模与流通费用、企业的产值与投入的原材料、劳动力、资金等之间都存在着相互依存关系,但却不是绝对的唯一确定关系,它们都属于相关关系。函数关系与相关关系之间并无严格的界限。由于有测量误差及各种随机因素的干扰

3、,有函数关系的变量间可能表现为相关关系;在对变量之间的联系有深刻了解之后,相关关系可用函数关系来描述。本章要讨论的是现象之间的相关关系。二、相关关系的种类从不同的角度出发,相关关系可做如下的分类。(一)根据自变量的多少可以分为单相关、复相关和偏相关两个变量之间的相关关系,称为单相关;两个以上变量的相关关系称为复相关。例如,企业的产值与投入的原材料、劳动力、资金等变量之间的关系就是一种复相关。在复相关关系讨论中,若我们仅讨论结果变量与某一个因素变量之间的关系而假定其它变量不变时,称关于这两个因素之间的相关关系为偏相关。在本章,我们只讨论单相关的有关问题。(二)根据相关关系的形态不同分为线性相关和

4、非线性相关 当一个变量X发生变动,另一个变量Y随之发生大致均等的变动,从图像上近似地表现为直线形式,这种相关称为线性相关或直线相关。例如,在一定的范围内,人均消费水平与人均收入水平之间通常表现为直线相关关系。若变量之间的相关关系呈曲线形式则称为非线性(或曲线)相关。例如:从人的生命全过程看,年龄与医疗费支出呈非线性相关关系。在本章我们只讨论线性相关的问题。(三)根据根据变量间变化方向的不同可分为正相关和负相关若变量之间的变化方向一致,即一个变量的值增加(或减少),另一个变量的值也随之增加(或减少),这样的关系称为正相关。例如工业总产值和利税额、家庭消费支出和收入等即为正相关。若变量之间变化方向

5、相反,即一个变量的数值增大(或减小),另一个变量的数值却减小(或增大),这样的关系称为负相关。例如劳动生产率提高则产品成本降低、产品成本降低则企业利润增加等。三、相关分析与回归分析的内容相关分析和回归分析是研究相关关系的两种基本方法。所谓相关分析,就是用一个指标来表明现象间相互依存关系的密切程度。所谓回归分析,就是根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变化关系。相关分析和回归分析有密切的联系,它们不仅具有共同的研究对象,而且在具体应用时,常常必须相互补充。相关分析需要回归分析来表明现象数量相关的具体形式,而回归分析则需要依靠相关分析来表明现象数量变化的相关程度

6、。只能当变量之间存在高度相关时,进行回归分析寻求其相关的具体形式才有意义。(一)相关分析与回归分析的内容相关分析和回归分析是研究相关关系的两种基本方法。相关分析要讨论的内容是:判断现象之间是否存在相关关系;如果存在相关关系,则要进一步判断相关关系的种类和关系的紧密程度;关系的紧密程度是用相关系数来刻划,但往往我们是用样本数据计算相关系数,这种相关系数是否能真实地反映总体的相关程度,还必须进行显著性检验。回归分析要研究的内容是:在相关分析的基础上,建立反映变量间依存关系的数学模型即回归方程;对回归方程进行显著性检验。由于我们是在定性判断的基础上选择的回归模型,并且是根据样本资料建立的回归方程,可

7、能定性判断不恰当,可能样本数据的随机性影响回归方程的真实性和可靠性,因此必须对回归方程进行显著性检验。(二)相关分析与回归分析的区别与联系回归分析和相关分析相互联系又存在明显的区别,其区别主要表现在:1.分析的内容不同。相关分析的主要研究内容是现象之间有无相关关系及关系的密切程度,而回归分析主要研究现象之间数量关系的依存形式,即建立回归方程,并用方程对现象进行预测。2.变量的地位不同。进行相关分析时,两个变量的地位是平等的,不必区分自变量和因变量,而回归分析则一定要明确哪个是自变量,哪个是因变量。3.变量的性质不同。相关分析中所有变量均为随机变量,而回归分析中因变量为随机变量,自变量可以为确定

8、性变量,也可以是随机变量。相关分析和回归分析之间的联系表现为,它们的研究对象相同,都是对具有相关关系的现象进行分析研究,而且在应用时常常相互补充。相关分析需要回归分析来表明现象数量相关的具体形式,而回归分析则需要依靠相关分析来表明现象间数量变化的相关程度,只有在变量间存在较高的相关关系时,进行回归分析才有意义。由于以上原因,一些统计学书籍将相关分析和回归分析称为相关关系分析或相关分析。以下我们将逐一讨论简单的线性相关和一元线性回归分析的基本理论和方法。第二节 相关分析一、相关关系的描述相关分析是确定变量之间是否存在相关关系以及何如描述这种关系的强度。相关分析是根据已有的数据确定变量之间是否存在

9、相关关系以及何如描述这种关系的强度。相关分析的方法主要分为定性判断和定量分析两类。定性判断就是从定性角度分析和判断现象之间是否具有相关关系以及相关关系的类型。这种分析和判断所依据的是对现象的了解和对有关的理论知识、专业知识的掌握,以及一定的社会实践经验。定量分析就是在定性分析的基础上,通过编制相关表、绘制相关图、计算相关系数与判定系数等方法,来判断现象之间相关的方向、形态及密切程度。(一)相关表相关表是一种反映变量相关关系的统计表。将某一变量按其取值的大小排列,然后再将与其相关的另一变量的对应值平行排列,便可得到简单的相关表。【例8-1】根据表8-1的现金收入与现金支出数据,我们选择10个省份

10、的人均现金支出和现金收入资料,编制的相关表如表8-2: 表8-1 全国各省区2006年1季度现金收入与现金支出数据 亿元地区支出收入地区支出收入地区支出收入北京1935.582878.71安徽864.28938.4四川824.16925.43天津1319.691895.23福建1210.781315.12贵州466.39468.55河北833.46986.11江西934.5928.82云南633.17601.8山西699.97700.87山东1090.841339.37西藏433.43400.75内蒙古1025.461057.8河南697.77709.14陕西768.7726.62辽宁1247

11、.111574.48湖北902.56935.9甘肃535.63524.06吉林1237.591298.59湖南1028.681069.96青海598.21573.33黑龙江1201.061338.75广东1337.51609.43宁夏974.88768.49上海2358.164067.27广西795.11862.41新疆930.69613.52江苏1493.872250.33海南821.96946.96浙江2416.353030.71重庆711.39862.41资料来源:中国国家统计局网站表8-2 10个省现金支出和现金收入的相关表 亿元省份河北山西内蒙古黑龙江吉林辽宁天津江苏北京上海支出83

12、370010251201123812471320149419362358收入98670110581339129915741895225028794067 从表8-2可以看出:收入多则支出也多,两者呈正相关关系。为了更明确直观的反映现金收入和支出的依存关系,我们可以绘制相关图。(二)相关图以变量为横轴,为纵轴建立的直角坐标系,将相关表上每一对应的具体数值用散点标出来而形成的图称为相关图称或散点图。利用散点图,可以直观、形象地表现变量之间的相互关系。图8-1是表明现象间不同关系的散点图。(A)正的线性相关 (B)负的线性相关(C)曲线相关 (D)不相关XXYYYXXY 图8-1 不同关系形态的散点

13、图【例8-2】根据表8-1的资料绘制散点图。解:用Excel绘制的散点图如下(具体操作步骤参见第三章统计数据的整理)。图8-2 2006年1季度现金支出与现金收入散点图从散点图可以看出,现金收入和现金支出之间存在正的线性相关关系。二、相关系数从散点图可以直观地判断两个变量之间有无相关关系,并对变量间的关系类型有大致的了解。但散点图不能准确反映变量之间的关系密切程度。当变量之间呈线性关系时,其相关关系的密切程度可用相关系数来刻划。(一)相关系数的计算相关系数是一个相对指标,若相关系数是根据总体全部数据计算得出,称为总体相关系数,记做;若是根据样本数据计算得到的,则称为样本相关系数,记做。样本相关

14、系数的计算公式为: (8.1)公式中的为和的协方差,为的方差,为的方差。公式(8.1)可以变形为以下计算公式: (8.2)【例8-3】根据表8-1的资料计算相关系数。解:相关系数r的计算复杂,一般用Excel计算,其具体步骤如下:第1步:顺次点击【工具】、【数据分析】、【相关系数】、【确定】;第2步:填写相关系数对话框。在【输入区域】引用输入的数据,本例为B1:C32;勾选【标志位于第一行】;在【输出区域】中引用一个单元格,本例为D1。见图8-5。图8-3 填写相关系数对话框第3步:点击【确定】,得到相关系数的结果,见表8-3。表8-3 2006年1季度现金收入和现金支出相关系数表支出收入支出

15、10.963744收入0.9637441(二)相关系数r的性质:为了充分认识和运用相关系数r,对其性质做如下总结。1.相关系数r的取值范围在-1和+1之间,即:11。2.若为正,则两变量呈正线性相关;若为负,则两变量呈负线性相关。3.如果,则表示两个变量完全线性相关,即为函数关系。如果,则表示两个变量没有线性关系。应该注意:只能说明两个变量没有线性关系,而不能说明两个变量没有关系,因为有可能它们之间存在曲线相关关系。4.相关系数的绝对值越接近于1,表示相关程度越强;越接近于0,表示相关程度越弱。用相关系数判断两变量线性相关关系密切程度的具体标准为:,称为微弱相关;,称为低度相关;,称为显著相关

16、;,称为高度相关。必须指出,以上关于相关系数的性质和判断变量关系密切程度的标准必须建立在对相关系数的显著性检验基础之上。三、相关系数的显著性检验一般情况下,总体相关系数是未知的,通常根据样本相关系数来近似估计。由于是根据样本计算得到的,它受到抽样误差的影响,因此对于不同的样本,计算出的也不同,因此r是一个随机变量。能否根据样本的相关系数说明总体的相关程度?这就需要考察r的可靠程度,也就是要对r进行显著性检验。为此,我们必须认识r的抽样分布。(一)的抽样分布为了对样本相关系数的显著性进行检验,需要参考的抽样分布。当样本数据来自正态总体,且样本容量很大时,的抽样分布近似服从正态分布。当总体相关系数

17、的绝对值很小甚至等于时,这种趋势是明显的,而当值远离且样本容量不够大时,的抽样分布会呈现出一定的偏态。因为的取值是围绕在周围的,当的绝对值很大时,例如,的值应以0.99为中心分布。从的性质知的取值范围在+1到-1之间,所以一边的变化以+1为限,离中心的变化距离为0.01,而另一边的变化是以-1为限,距离为1.99,两边的变化距离不等,自然的抽样分布就不对称。但当值接近0时,两边的变化距离大致相等,此时的抽样分布就接近对称。可见,的抽样分布是随着总体相关系数和样本容量的大小而变化的。当为较大的正数时,呈现左偏分布;当为较大的负数时,呈现右偏分布。只有当接近时,才近似对称。若样本容量充分大后,是近

18、似服从正态分布的随机变量。而我们讨论的往往是关系较强的,总体相关系数的绝对值都较大,而且样本容量往往都不够大,用样本相关系数去估计时,假定服从正态分布是不合适的。此时的分布服从费歇尔提出的t分布假设,且该检验既适用于小样本也适用于大样本。应当注意,当的绝对值很小而样本容量又很大时,总是能通过检验的。这时并不能说明两变量之间具有线性关系。所以在相关程度很低时,检验没有多大意义。(二)的显著性检验显著性检验的具体步骤如下:第一步:提出假设:假设样本是从一个不相关的总体中抽样的,即:第二步:计算检验的统计量: (8.3)第三步:进行统计决策。根据给定的显著性水平和自由度,查分布表,得到临界值。若,则

19、拒绝原假设,表明总体的两个变量之间存在显著的线性关系。【例8-4】以5%的显著性水平,检验全国各省区2006年1季度现金收入与现金支出之间的相关系数是否显著。第一步:提出假设:假设样本是从一个不相关的总体中抽样的,第二步:计算检验的统计量。将表8-3的数据代入t检验统计量公式,得:第三步:进行决策。根据给定的显著性水平=0.05和自由度,查分布表,得到。由于,所以拒绝原假设,表明现金支出和现金收入之间存在显著的正线性相关关系。第三节 一元线性回归分析在变量之间的相关程度很高的基础上,应进行回归分析,以考察变量之间的因果关系,并通过建立数学模型回归方程来更深入的反映自变量变化对因变量的影响。回归

20、分析将讨论以下几个方面的具体问题:1.利用已知的样本数据,确定变量之间的数学模型回归方程;2.对模型中的参数以及模型的可靠程度进行检验。一、一元线性回归模型在回归分析中,我们把作为结果的变量称为因变量,也就是在模型中被预测或被解释的变量,用表示;把作为原因的变量称为自变量,用表示。例如,在分析现金支出与现金收入的关系中,我们需要了解的是在将来一定现金收入的条件下,现金支出将达到的水平。因此,现金支出是被预测的变量即因变量y,而用来预测现金支出的现金收入就是自变量x。这里我们只讨论一元线性回归,即只有一个自变量,且因变量与自变量之间为线性相关关系。对于具有线性关系的变量,可以用一个线性方程即一元

21、线性模型来刻划它们之间的关系。一元线性模型为: (8.4) 在这个模型中,线性主部反映由变化而引起的的线性变化;而随机项反映了除此之外由随机因素造成的对的影响,是不能由线性主部所能解释的变异因素。(一)回归的经典假设1自变量是确定性变量,不是随机变量;如果不满足这一假定,可能会产生随机解释变量。 2随机误差项服从均值和等方差的正态分布: (8.5) (8.6)3随机误差项在不同样本点之间是独立的,不存在序列相关: (8.7)以上这些基本假定是德国数学家高斯最早提出的,也称为高斯经典假设。满足以上标准假定的一元线性回归模型称为标准的一元线性回归模型。(二)总体回归方程模型根据回归模型的经典假设,

22、的期望值等于零,因此的期望值 (8.8)也就是说总体回归模型是描述的取一定值,所对应的的期望。总体回归模型的图形是一条唯一确定的直线。是该直线的截距,也就是当取0时的期望值;是直线的斜率,它表示当每变动一个单位,的平均变化量,通常称为回归系数。(三)样本回归方程总体回归模型是我们需要求取的,而我们仅有样本信息。所以我们首先用样本信息估计出样本回归模型,然后用统计方法推断出总体回归模型。样本回归模型又称为估计的回归方程,样本回归模型如下: (8.9) 公式中的和是样本的统计量,用以推断总体回归方程的参数和。二、参数的最小二乘估计若能算出统计量和,样本回归方程就确定了。如何求取和呢,常用的是最小二

23、乘法。在给定的一组样本观测值之下,要求样本回归方程尽可能好的拟合这组值,就是要求代表真实值的散点到样本回归直线的距离之和最小,即因变量的真值与回归直线上的估计值之差的平方和最小: (8.10)当样本观测值已知时,上式是关于和的二元函数。对于多元函数最小值的求取,运用多元微积分中的极值定理,容易得到: (8.11) 在一组已知的样本观测值之下,运用最小二乘法即可求得参数和,于是可得到最优拟合直线样本的回归方程。参数称为回归系数,表示自变量每变动一个单位因变量平均的变动值。【例8-5】根据表8-1全国各省2006年1季度现金收入与现金支出数据,求现金支出对现金收入的估计回归方程。根据公式(8.11

24、)得:于是得到估计回归方程:回归系数,表示现金收入每增加一亿元,现金支出平均增加0.559621亿元。回归分析的计算量大,用手工计算很麻烦,在实际工作中,可以运用统计软件来处理。下面我们结合上述例子,说明Excel操作的具体步骤。我们将2006年1季度各区期内现金支出和期内现金收入输入到Excel工作表中的B2:C32单元格,然后按以下步骤进行操作:第1步:顺次点击【工具】、【数据分析】、【回归】、【确定】。第2步:填写“回归”对话框。在【Y值输入区域】中引用B1:B32;在【X值输入区域】中引用C1:C32;勾选【标志】;在【置信度】中给出所需的数值(默认值为95%);在【输出区域】中引用一

25、个单元格,比如D1。见图8-4。 图8-4 填写回归对话框第3步:点击【确定】,得到输出的结果,见表8-6。表8-4 Excel输出的回归分析结果Excel输出的回归分析结果包括以下三部分内容:第一部分是“回归统计”。该部分给出了回归分析中的一些常用统计量,包括相关系数(Multiple R)、判定系数(R Square)、调整后的判定系数(Adjusted)、标准误差、观察值的个数等。第二部分是“方差分析”,该部分给出了自由度(df),回归平方和、残差平方和、总平方和、回归和残差的均方、检验统计量、F检验的显著性水平。“方差分析”部分的主要作用是对整个方程拟合程度做显著性检验,后面我们会详细

26、介绍。第三部分列出了模型中参数的估计值以及对这些估计值进行检验的数值,包括回归方程的截距、斜率以及截距和斜率的标准误差、用于检验回归系数的统计量,值,以及截距和斜率的置信区间。我们要讨论的内容其计算结果在这里都有体现。三、回归直线的拟合优度回归直线在一定程度上描述了变量和之间的数量关系,由此可根据自变量的取值来估计或预测因变量的取值。但估计或预测的精度将取决于回归直线对观测数据的拟合程度。如果各观测数据的散点围绕回归直线越紧密,说明回归直线对观测数据的拟合程度越好,反之越差。我们把回归直线和各观测点的接近程度称为回归直线对数据的拟合优度。为了量化拟合优度,需要计算判定系数。为了说明判定系数的含

27、义,我们需要对因变量的变差进行分解。(一)因变量变差的分解因变量的取值是有差异的,取值的这种不同称为变差。变差的产生来源于两个方面:一是由于自变量的不同取值造成;二是除以外的其它因素(例如测量误差等)的影响。对一个具体的观测值来说,变差的大小可以用实际观测值与因变量的均值之差()来表示。 0图8-5 变差分解图从图8-7可以看出,每个观测点的变差都可以分解为两部分,即: (8.12)将等式两边平方,并对所有点求和,有 可以证明,因此有 (8.13)式子的左边的称为总平方和,它可分解为两部分,其中是回归值与均值的离差平方和,根据样本回归方程,估计值,因此可以把看做由于自变量的变化引起的的变化,而

28、其平方和反映了的总离差中由于与线性关系引起的的变化部分,它是可以由回归直线来解释的离差部分,称为回归平方和,记做。另一部分是各观测值与回归值的剩余误差的平方和,它是除了对的线性影响之外的其它因素对离差的作用,称为残差平方和,记为。这三个平方和的关系为:总平方和=回归平方和+残差平方和,即 (8.14)这是总变差的绝对数表达关系,其相对数表达为: (8.15) (二)判定系数回归直线拟合的好坏取决于回归平方和SSR和残差平方和SSE的大小,或SSR和SSE在总平方和SST中所占比重的大小。对于确定的样本,总平方和SST是常数,则回归平方和SSR和残差平方和SSE是此消彼涨的关系。我们以回归平方和

29、SSR在总平方和SST中所占比重这个相对指标作为判定回归直线拟合好坏的指标,并将这一指标定义为判定系数,记做 (8.16) 若所有观测点都落在回归线上,残差平方和=0,则=1,即是完全拟合;若的变化与无关,与的离差完全没有关系,那么此时,且=0。可见的取值范围是0,1。越接近1,表明回归平方和占总平方和的比重越大,回归直线与各观测值越接近,用的变化解释值离差的部分就越多,回归直线的拟合效果就越好;反之,越接近0,回归直线的拟合程度就越差。可以证明:在一元线性回归时,判定系数就是相关系数的平方(多元线性回归不具有这一规律)。这一结论不仅可以使我们能从相关系数直接计算判定系数,也可以使我们进一步理

30、解相关系数的意义。相关系数与回归系数具有相同的正负号,实际上,相关系数也从另一个角度说明了回归直线的拟合优度。【例8-6】计算全国各省区2006年1季度现金收入与现金支出回归方程的判定系数,并解释其意义。利用表8-4Excel输出的回归分析结果可知,总平方和=6946600,回归平方和=6452023,残差平方和=494576.8。根据公式(8.16)得到: 也可以根据相关系数求得:判定系数的实际意义是:在现金支出中,有92.88%可以由现金收入与现金支出之间的线性关系来解释。或者说,在现金支出的变动中,有92.88%是由现金收入的变动引起的,说明现金支出和现金收入的回归方程的拟合优度很高。(

31、三)估计标准误差回归直线的拟合优度是由SSR在总平方和SST中的比重(判定系数)来度量的。而残差平方和SSE可以说明样本观察值与回归估计值之间的差异程度,从另一个角度说明回归直线的拟合优度。将残差平方和SSE除以其自由度n-2,可以得到残差均方,记为MSE,MSE的平方根称为估计标准误差,记为。 (8.17)由于回归方程中用了两个统计量和,故SSE的自由度为。估计标准误差是对误差项的标准差的估计,即在排除了的影响后的随机波动的一个估计量。在对因变量进行预测估计时,它反映了用样本回归方程预测值的误差大小。若样本观察值与回归直线距离越近,则越小,回归直线的代表性越好,运用回归方程做预测就越准确。可

32、见它可以从另一个角度来说明回归直线的拟合优度。四、回归模型的显著性检验在根据样本数据建立一元线性回归模型的过程中,我们是在一系列假设条件下进行的。比如:两变量间存在线性关系、随机误差项是一个服从0均值、等方差的正态分布随机变量等。这些假设是否成立,需要通过检验才能证实。回归模型显著性检验主要检验两个方面的内容,一是线性关系的检验,二是回归系数的检验。显著性检验不仅说明我们建立的回归模型是否真实反映了两个变量之间的关系,也关系到对因变量做预测的准确程度。(一)线性关系的检验线性关系的检验就是要检验两个变量之间用线性模型表示是否合适。为检验两个变量之间的线性关系是否显著,我们需要构造用于检验的统计

33、量。两个变量的线性关系是否显著,其实质就是讨论因变量的总变差是不是主要由两个变量的这种线性关系引起的,即总变差平方和中回归平方和与残差平方和的比值大小。该统计量的构造是以回归平方和()以及残差平方和()为基础的。将除以其自由度(自变量的个数,一元线性回归中自由度为1)的结果称为回归均方,记为;将除以其自由度(,一元线性回归中自由度为)的结果称为残差均方,记为。如果原假设成立(,两个变量之间的线性关系不显著,即回归方程设定不成立),则/的抽样分布服从分子自由度为1、分母自由度为的分布,即 (8.18)当原假设成立时,/的值应接近1,即线性关系不显著。若原假设不成立,/的值将变得无穷大。因此,较大

34、的/值将导致拒绝原假设,可以断定变量和之间存在显著的线性关系。线性关系检验的具体步骤如下:第一步:提出假设: 两个变量之间的线性关系不显著;第二步:计算检验统计量: 第三步:做出决策。确定显著性水平,并根据分子自由度和分母自由度查分布表,得到临界值。若,拒绝,表明两个变量之间的线性关系是显著的;若,不拒绝,即没有证据表明两个变量之间的线性关系显著。【例8-7】检验全国各省区2006年1季度现金支出和现金收入一元线性回归模型线性关系的显著性。(=0.05)解:第一步:提出假设 现金支出和现金收入之间的线性关系不显著第二步:计算检验统计量F。 第三步:做出决策。根据显著性水平=0.05、分子自由度

35、=1和分母自由度,查分布表,得到临界值。由于,故拒绝,表明现金支出和现金收入之间的线性关系是显著的。 实际上,在Excel输出结果的第二部分即方差分析表中,给出了线性关系显著性检验的全部结果。除了给出检验统计量的值之外,还给出了Significance F,它相当于用于检验的P值。除了可以用F统计量进行决策外,还可利用Significance F决策,具体方法是:将“Significance F”的值与给定的显著性水平进行比较,如果Significance,拒绝原假设,表明因变量与自变量之间有显著的线性关系;如果Significance,不拒绝原假设,即没有证据表明因变量与自变量之间有显著的线

36、性关系。在表8-4的输出结果中,Significance F=3.48867E-18,说明现金支出和现金收入之间存在显著的线性关系,这与用F检验统计量得到的结论相同。(二)回归系数的检验回归系数的显著性检验是要检验自变量对因变量的影响是否显著。在一元线性回归模型中,如果回归系数,回归直线是一条水平线,表明因变量的取值不依赖自变量。但是若,也不能肯定地得出两个变量之间存在线性关系的结论,这要看这种关系是否具有统计意义上的显著性。回归系数的检验就是检验回归系数是否等于零。为检验原假设是否成立,需要构造用于检验的统计量。为此,我们需要讨论回归系数的抽样分布。样本回归方程的是总体回归方程参数的统计量,

37、由于先假设随机扰动项服从正态分布,可以证明: (8.19)其中的是误差项的方差若已知,根据概率论知识可以对做标准化处理使得生成新的随机变量服从标准正态分布,就可以用z检验方法对总体回归系数进行假设检验。但是是未知的,通常我们用作为的无偏估计量。当样本为小样本时,是服从分布的,即 (8.20)公式中的是的估计标准差 (8.21)即该统计量服从自由度为的分布。若回归方程通过检验,两变量间具有线性性,则,统计量为: (8.22)回归系数显著性检验的步骤是:第一步:提出假设:, 第二步:计算检验统计量:第三步:做出决策。根据显著性水平和自由度=查分布表,找到相应的临界值,若,拒绝原假设,表明自变量对因

38、变量的线性影响是显著的,即存在线性关系;如果,则不拒绝,即没有证据表明自变量对因变量的影响是显著的。也可用值与设定的显著性水平比较。若,则接受原假设,也就是认可自变量变化对因变量没有任何影响。若,则拒绝原假设,认为因变量的变化和自变量有关系。表8-4的Excel输出的回归分析结果的第三部分给出了t检验统计量和P值。下面用例子来说明具体的检验过程【例8-8】检验现金支出和现金收入回归方程中回归系数的显著性。(=0.05)解:第一步:提出假设, 第二步:计算检验统计量:第三步:做出决策。根据显著性水平和自由度,查分布表,得到临界值。由于,故拒绝原假设。若用值来检验,本例中,所以拒绝,表明现金支出的

39、变化很大程度上依赖现金收入。在进行显著性检验时,有以下两点需要注意:第一,我们通常只对回归系数做检验,对于回归方程中的截距没有检验的必要。因为截距是否为0只表明回归方程经不经过原点。对整个回归方程的估计以及后面的预测都没有影响。第二,在一元回归中对整个方程拟合好坏的检验与对回归系数的检验虽用了不同的统计量,但原假设与备择假设都是相同的。原因是一元回归中自变量的个数只有一个。而多元回归当自变量个数多于一个时,这两种检验的意义是不同的,检验是检验多元回归方程整体的显著性,而检验则是对各个回归系数的检验。整个模型可能不能通过检验,但是其中某些回归系数却可能通过检验。回归分析的主要目的是根据所建立的估计的回归方程进行预测或控制。在回归分析通过各种检验之后,我们就可以用它来完成这一目的了。所谓预测,就是根据自变量x的取值来预测因变量y的取值,比如,根据现金收入与现金支出的回归方程,给出一个具体的现金数值,就可以预测现金支出的具体数值。而控制则恰恰相反,它是根据因变量y的取值,求得自变量x的取值。用回归方程预测的方法有点预测方法和区间预测方法,本章不对其进行讨论。17

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!