方差分析及回归分析

上传人:qd****88 文档编号:71720233 上传时间:2022-04-07 格式:DOC 页数:11 大小:463KB
收藏 版权申诉 举报 下载
方差分析及回归分析_第1页
第1页 / 共11页
方差分析及回归分析_第2页
第2页 / 共11页
方差分析及回归分析_第3页
第3页 / 共11页
资源描述:

《方差分析及回归分析》由会员分享,可在线阅读,更多相关《方差分析及回归分析(11页珍藏版)》请在装配图网上搜索。

1、.第九章回归分析教学要求1一元线性回归及线性相关显著性的检验法,利用线性回归方程进展预测。2可线性化的非线性回归问题及简单的多元线性回归。n 本章重点:理解线性模型,回归模型的概念,掌握线性模型中参数估计的最小二乘法估计法。n 教学手段:讲练结合n 课时分配:6课时9.1 一元线性回归回归分析是研究变量之间相关关系的一种统计推断法。例如,人的血压y与年龄*有关,这里*是一个普通变量,y是随机变量。Y与* 之间的相依关系f(*)受随机误差的干扰使之不能完全确定,故可设有:9.1式中f(*)称作回归函数,为随机误差或随机干扰,它是一个分布与*无关的随机变量,我们常假定它是均值为0的正态变量。为估计

2、未知的回归函数f(*),我们通过n次独立观测,得*与y的n对实测数据(*i,yi)i=1,n,对f(*)作估计。实际中常遇到的是多个自变量的情形。例如在考察*化学反响时,发现反响速度y与催化剂用量*1,反响温度*2,所加压力*3等等多种因素有关。这里*1,*2,都是可控制的普通变量,y是随机变量,y与诸*i间的依存关系受随机干扰和随机误差的影响,使之不能完全确定,故可假设有:(9.2)这里是不可观察的随机误差,它是分布与*1,*k无关的随机变量,一般设其均值为0,这里的多元函数f(*1,*k)称为回归函数,为了估计未知的回归函数,同样可作n次独立观察,基于观测值去估计f(*1,*k)。以下的讨

3、论中我们总称自变量*1,*2,*k为控制变量,y为响应变量,不难想象,如对回归函数f(*1,*k)的形式不作任何假设,问题过于一般,将难以处理,所以本章将主要讨论y和控制变量*1,*2,*k呈现线性相关关系的情形,即假定f(*1,*k)=b0+b1*1+bk*k。并称由它确定的模型(9.1)(k=1)及(9.2)为线性回归模型,对于线性回归模型,估计回归函数f(*1,*k)就转化为估计系数b0、bi(i=1,k)。当线性回归模型只有一个控制变量时,称为一元线性回归模型,有多个控制变量时称为多元线性回归模型,本着由浅入深的原则,我们重点讨论一元的,在此根底上简单介绍多元的。 一元线性回归一、一元

4、线性回归的数学模型前面我们曾提到,在一元线性回归中,有两个变量,其中*是可观测、可控制的普通变量,常称它为自变量或控制变量,y为随机变量,常称其为因变量或响应变量。通过散点图或计算相关系数判定y与*之间存在着显著的线性相关关系,即y与*之间存在如下关系:y=a+b*+(9.3)通常认为N(0,2)且假设2与*无关。将观测数据(*i,yi)(i=1,n)代入(9.3)再注意样本为简单随机样本得: (9.4)称(9.3)或(9.4)(又称为数据构造式)所确定的模型为一元(正态)线性回归模型。对其进展统计分析称为一元线性回归分析。不难理解模型(9.4)中EY=a+b*,假设记y=E(Y),则y=a+

5、b*,就是所谓的一元线性回归方程,其图象就是回归直线,b为回归系数,a称为回归常数,有时也通称a、b为回归系数。我们对一元线性回归模型主要讨论如下的三项问题:(1) 对参数a,b和2进展点估计,估计量称为样本回归系数或经历回归系数,而称为经历回归直线方程,其图形相应地称为经历回归直线。(2) 在模型(9.3)下检验y与*之间是否线性相关。(3) 利用求得的经历回归直线,通过*对y进展预测或控制。二、a、b的最小二乘估计、经历公式现讨论如何根据观测值(*i,yi),i=1,2,n估计模型9.2中回归函数f(*)=a+b*中的回归系数。采用最小二乘法,记平方和(9.5)找使Q(a.b)到达最小的a

6、、b作为其估计,即a.b为此,令化简得如教材所示的方程组(称为模型的正规方程)解得(9.6)(9.6)所示的分别称为a、b的最小二乘估计,式中称为经历回归(直线方程),或经历公式。例1 *种合成纤维的强度与其拉伸倍数有关。下表是24个纤维样品的强度与相应的拉伸倍数的实测记录。试求这两个变量间的经历公式。123456789101112拉伸倍数*1.92.02.12.52.72.73.53.54.04.04.54.6强度y (Mpa)1.41.31.82.52.82.53.02.74.03.54.23.5131415161718192021222324拉伸倍数*5.05.26.06.36.57.1

7、8.08.08.99.09.510.0强度y (Mpa)5.55.05.56.46.05.36.57.08.58.08.18.1将观察值(*i,yi),i=1,24在平面直角坐标系下用点标出,所得的图称为散点图。从本例的散点图看出,强度y与拉伸倍数*之间大致呈现线性相关关系,一元线性回归模型是适用y与*的。现用公式9.6求,这里n=24由此得强度y与拉伸倍数*之间的经历公式为三、最小二乘估计的根本性质定理9.1一元线性回归模型(9.4)中,a、b的最小二乘估计满足:(1) (2) (3) 证:(1) 注意到对任意i=1,2,n有(2)利用,将表示为:(9.7)(9.8)由于y1,y2,yn相互

8、独立,有定理9.1说明,a、b的最小二乘估计是无偏的,从(9.7),(9.8)还知道它们又是线性的,因此(9.5)所示的最小二乘估计分别是a、b的线性无偏估计。 建立回归方程后进一步的统计分析一、2的无偏估计由于2是误差i(i=1,n)的方差,如果i能观测,自然想到用来估计,然而i是观测不到的,能观测的是yi.。由 (即Eyi的估计),就应用残差来估计,因此,想到用 来估计2,我们希望得到无偏估计,为此需求残差平方和的数学期望,由定理9.2可推出(学员自验)于是得为2的无偏估计,例如9.1例1中即有定理9.2令,则。我们称为标准误差,它反映回归直线拟合的程度。具体计算时可用。二、预测与控制1、

9、预测问题对于一元线性回归模型9.9我们根据观测数据(*i,yi),i=1,n,得到经历回归方程,当控制变量*取值*0*0*i,i=1,n,如何估计或预测相应的y0呢?这就是所谓的预测问题,自然我们想到用经历公式,取来估计实际的,并称为点估计或点预测。在实际应用中,假设响应变量y比拟难观测,而控制变量*却比拟容易观察或测量,则根据观测资料得到经历公式后,只要观测*就能求得y的估计和预测值,这是回归分析最重要的应用之一,例如在9.1例1中,拉伸倍数*0=7.5,则可预测强度但是,上面这样的估计用来预测y终究好不好呢?它的精度如何?我们希望知道误差,于是就有考虑给出一个类似于置信区间的预测区间的想法

10、。定理9.3 对于一元(正态)线性模型9.10有1 服从二元正态分布。(2) (3) 是相互独立的随机变量。证明:略又,我们知道y0是r.v,且与y1,y2,yn相互独立,由定理9.3及定理9.2知,且由于y0与相互独立(只与y1,yn有关),且y0N(a+b*0,2)由定理9.3知,与独立,故T=9.11对于给定的置信水平1-,查自由度为n-2的T分布表可得满足的临界值ta根据不等式的恒等变形可得的置信度为1-的置信区间为:这就是的置信度为1-的预测区间,它是以为中心,长度为的区间,(记),区间的中点随*0而线性变化,它的长度在处最短,*0越远离,预测区间的长度就越长。预则区间的上限与下限落

11、在关于经历回归直线对称的两条曲线上,并是喇叭形。当n较大,L*充分大时, 可得y0的近似预测区间:9.12上式说明预测区间的长度,即预测的精度主要由确定,因此在预测中,是一个根本而重要的量。2、控制问题在实际应用中往往还需要考虑预测的反问题,即要以不小于1-的概率将y0控制在(y1,y2),也就是使 相应的*0应控制在什么围。这类问题称为控制问题。根据前一段的讨论,假设*0满足9.13则可有因此控制问题一般是找满足(9.13)的*0的围。但求解很麻烦。一种近似的处理法是:由将a,b,2分别用其无偏估计代,有从而根据查N(0.1)分布表确定,于是y0的置信度1-的预测区间可近似认为是要解决前述问

12、题可以从满足:的*0去寻找*0的控制围。显然,当时,问题无解,否则方程组有解由此得*0的控制围是(min(),ma*()三、线性相关的检验前面的讨论都是在假定y与*呈现线性相关关系的前提下进展的,假设这个假定不成立,则我们建立的经历回归直线方程也失去意义,为此必须对y与*之间的线性相关关系作检验,为解决这个问题,先作手:1、偏差平方和分解记,称它为总偏差平方和,它反映数据yi的总波动,易得L有如下分解式:其中就是前面提到的残差平方和,称为回归平方和,上式右边的穿插项:由上可知,U越大,Qe就越小,*与y间线性关系就越显著;反之,*与y之间的线性关系越不显著。于是,自然地考虑到检验回归方程是否有

13、显著意义是考察U/Q的大小,其比值大,则L中U占的比重大,回归方程有显著意义,反之,无显著意义。2、线性相关的F检验根据上段的思想来构造检验统计量,先看下面的定理。定理9.4当H0:b=0 成立时 U/2(1),且Q与U相互独立。证:当H0成立时,由Th2.1-1及Th2.2-2知, 于是由定理9.4,我们还知,且Q与相互独立,从而Q与U=独立,由上面的定理及F分布的构造性定理知: 9.14因此可选它作检验H0:b=0 的检验统计量,当H0为真时F的值不应太大,故对选定的水平0,由P()=查F(1,n-2)分布表确定临界值F1-分位数,当观测数据代入(9.14)式算出的F值合FF1-时,不能承

14、受H0,认为建立的回归方程有显著意义。 检验H0:经历公式无显著意义(=0.05)选用由查表得F=4.30现计算F值由L=Lyy=117.95Q=L-U=5.6得因FF,所以拒绝H0,认为所得的经历回归方程有显著意义。四、相关与回归的区别与联系1、联系由前面的讨论,有:得回归平方和U=r2L残差平方和 可见r2反映了回归平方和在总偏差平方和中占的比重,该比重越大,误差平方和在总偏差平方和中占的份量就越小。通常称r2为拟合优度系数。r就是变量*与y的积差相关系数,另方面由 看出,在检验y与*是否显著线性相关时,F检验法与相关系数T检验法等效。2、区别相关关系不说明因果关系,是双向对称的,在相关分

15、析中,对所讨论的两个变量或多个变量是平等对待的,相关系数r反映数据(*i,yi)所描述的散点对直线的靠拢程度。回归分析中,变量在研究中地位不同,要求因变量(响应变量)y是随机变量,自变量一般是可控制的普通变量(当然也可以是随机的)。在回归方程中,回归系数只反映回归直线的陡度,且它不是双向对称的。 一元非线性回归前面讨论的线性回归问题,是在回归模型为线性这一根本假定下给出的,然而在实用中还经常碰到非线性回归的情形,这里我们只讨论可以化为线性回归的非线性回归问题,仅通过对*些常见的可化为线性回归问题的讨论来说明解决这类问题的根本思想和方法。一、曲线改直例1 炼纲过程中用来盛钢水的钢包,由于受钢水的

16、浸蚀作用,容积会不断扩大。下表给出了使用次数和容积增大量的15对试验数据:使用次数(*i)增大容积(yi)使用次数(*i)增大容积(yi)23456786.428.209.589.509.7010.009.939101112131415169.9910.4910.5910.6010.8010.6010.9010.76试求Y关于*的经历公式。解:首先要知道Y关于*的回归函数是什么类型,我们先作散点图。(见教材)从图上看,开场浸蚀速度较快,然后逐渐减缓,变化趋势呈双曲线状。因此可选取双曲线:(设y与*之间具有如下双曲线关系)(9.15)作为回归函数的类型,即假设y与*满足:(9.16)令,则(9.

17、15)变成.这是一种非线性回归,先由*、y的数据取倒数,可得,的数据(0.5000,0.1558),(0.0625,0.0929),对得到的15对新数据,用最小二乘法可得:线性回归方程 后,代回原变量得为y关于*的经历公式(回归方程)在例1中,假设了y与*之间满足双曲线回归模型,显然这是一种主观判断,因此所求得的回归曲线不一定是最正确的拟合曲线。在实用中,往往是选用不同的几种曲线进展拟合,然后分别计算相应的残差平方和(标准误差)进展比拟Qe(或)最小者为最优拟合。二、常见可改直的曲线下面简介一些可通过变量替换化为线性回归的曲线回归模型。1、双曲线 作变换则回归函数化为:y=a+b*2、幂函数y

18、=a*b(或y=a*-b) (b0) 对幂函数两边取对数,作变换则有 3、指数函数y=aeb*或y=ae-b* (b0)两边取对数令 4、倒指数函数或 (b0,a0)两边取对数后作变换y,则有 5、对数函数,y=a+b*作变换*,则有y=a+b.另外还有一些可化为线性回归的曲线回归,将在用spss作实习操作时一并介绍。例1(续)由例1的散点图看出,除双曲线拟合外,本例还可选择倒指数拟合:y=aeb/*两边取对数得:令,变为如下的回归问题:利用最小二乘法求得:=-1.1107,=2.4578因此回归直线为:代回原变量得:经计算双曲线拟合时 Q=1.4396 =0.3328,倒指数拟合时=0.21

19、68,故倒指数拟合效果更好些。9.2 多元线性回归实际应用中,很多情况要用到多元回归的方法才能更好地描述变量间的关系,因此有必要在本节对多元线性回归做一简单介绍,就方法的实质来说,处理多元的方法与处理一元的方法根本一样,只是多元线性回归的方法复杂些,计算量也大得多,一般都用计算机进展处理。一、数学模型和回归方程的求法。1、多元线性回归的模型。设因变量y与自变量*1,*2,*k之间有关系式:(9.17)抽样得n组观测数据:(y1;*11,*21,*k1)(y2;*12,*22,*k2)(yn;*1n,*2n,*kn)其中*ij是自变量*i的第j个观测值,yj是因变量y的第j个值,代入9.17得模

20、型的数据构造式:(9.18)我们称(9.17)或(9.18)为k元正态线性回归模型,其中b0,b1,bk及2都是未知待估的参数,对k元线性模型,需讨论的问题与一元时一样。需要说明的几点见教材2、未知参数的估计与一元时一样,采用最小二乘法估计回归系数 b0,b1,bk. 称使到达最小的为参数b0,b1,bk的最小二乘估计,利用微积分知识,最小二乘估计就是如下方程组的解:(9.19)其中 通常称方程组(9.19)为正规方程组,其中前k个方程的系数矩阵记为当L*可逆时,正规方程组(9.19)有解,便可得b0,b1,bk的最小二乘估计 即代入模型(9.18),略去随机项得经历回归方程为: (9.20)

21、类似一元可以证明 都是相应的bi(i=0,1,k)的无偏估计,且2的无偏估计为:二、回归方程的显著性检验与一元的情形一样,上面的讨论是在y与*1,*k之间呈现线性相关的前提下进展的,所求的经历方程是否有显著意义,还需对y与诸*i间是否存在线性相关关系作显著性假设检验,与一元类似,对是否有显著意义,可通过检验H0:b1=b2=bk=0为了找检验H0的检验统计量,也需将总偏差平方和Lyy作分解:(9.21)即L=U+Qe 其中L=Lyy,这里. 分别称Qe,U为残差平方和、回归平方和,可以证明:利用柯赫伦定理可以证明:在H0成立下,且U与Qe相互独立,所以有(9.22)(这里记Qe为Q,下同)取F

22、作H0的检验计量,对给定的水平,查F(k, n-k-1)分布表可得满足的临介值,由样本观测值代入(9.22)算出统计量F的观测值,假设F,则不能承受H0,认为所建的回归方程有显著意义。通过F检验得到回归方程有显著意义,只能说明y与*1,*2,*k之间存在显著的线性相关关系,衡量经历回归方程与观测值之间拟合好坏的常用统计量有复相关系数R及拟合优度系数R2。仿一元线性回归的情况,定义:(9.23) (9.23)可以证明R就是观测值y1,yn与回归值的的相关系数。实用中,为消除自由度的影响,又定义: (9.24) 为修正的似合优度系数。三、偏回归平方和与因素主次的判别本段容是多元回归与一元回归有本质

23、差异的局部。前一节所作的检验H0:b1=b2=bk=0被拒绝,并不能说明所有的自变量都对因变量y有显著影响,我们希望从回归方程中剔除那些可有可无的自变量,重新建立更为简单的线性回归方程,这就需要对每个自变量*j做显著性检验。于是考虑H0j:bj=0的检验方法。从原有的k个自变量中剔除*j,余下的k-1个自变量对y的线性影响也可由相应的偏差平方和分解式中的回归平方和U(j)反映出来,即记 则U(j)反映了变量*j在回归方程中对y的线性影响,常称它为*j的偏回归平方和,可以证明 (9.25)其中Cjj是矩阵 L*=(Lij)pp的逆矩阵对角线上的第j个元素,对于H0j:bj=0选用统计量 (9.26)对给定的水平,由,查F(1,n-k-1)分布表确定临介值,将观测值代入(9.26)算出的Fj值与比拟,假设Fj则拒绝H0,认为*j对y的线性影响显著,否则不显著,应剔除。但在实用中,多元回归中剔除变量的问题比上例我们做的讨论要复杂得多,因为有些变量单个讨论时,对因变量的作用很小,但它与*些自变量联合起来,共同对因变量的作用却很大,因此在剔除变量时,还应考虑变量交互作用对y的影响,对这一问题的深入讨论太花时间,有兴趣的同志可参见有关多元统计分析教材。此外,关于多元性回归的预测和控制问题,类似一元不再赘述。.

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!