多重线性回归与多元逐步回归-统计学

上传人:仙*** 文档编号:253242553 上传时间:2024-12-09 格式:PPT 页数:90 大小:982.50KB
收藏 版权申诉 举报 下载
多重线性回归与多元逐步回归-统计学_第1页
第1页 / 共90页
多重线性回归与多元逐步回归-统计学_第2页
第2页 / 共90页
多重线性回归与多元逐步回归-统计学_第3页
第3页 / 共90页
资源描述:

《多重线性回归与多元逐步回归-统计学》由会员分享,可在线阅读,更多相关《多重线性回归与多元逐步回归-统计学(90页珍藏版)》请在装配图网上搜索。

1、单击此处编辑母版标题样式,,单击此处编辑母版文本样式,,第二级,,第三级,,第四级,,第五级,,,,*,多重线性回归,流行病与卫生统计学系,内 容,多重线性回归,,回归分析中自变量的选择,,多因素线性回归的应用及注意事项,,,复 习,线性回归分析是研究,一个变量,和,另外一些变量,间,线性关系,的统计分析方法。,在回归分析中,最简单的情形是模型中只包含两个有,“,依存关系,”,的变量,,一个变量,(反应变量)随,另一个变量,(自变量)的变化而变化,且呈直线变化趋势,称之为,简单线性回归。,,给定,X,的数值,,,Y,,的数值取在一个平均值,,(,,y|x,),附近,,对应于不同的,X,值,,

2、,Y,,的,平均值座落在一条直线上,,,----,回归直线,.,,,,y|x,,和,X,的关系可用一个线性方程描写,.,简单线性回归方程,总体,,,,样本,,,,“,Y hat,”,表示估计值,给定,x,时,y,的,总体均数,的,估计值,。,直线回归方程的求解:最小二乘原理,Y,X,,,,,,,,,,,,,,,,,,,,,,,,,,,,回归系数及其计算,找一条直线使残差平方和最小,,,,,,利用微积分知识,,,容易得到,,,,,,,这条线一定过两个点,和,线性回归分析的前提条件,线性,(,L,inear),,反应变量,Y,与自变量,X,呈线性变化趋势,,独立,(,I,ndependent),

3、,任意两个观察值相互独立,一个个体的取值不受其他个体的影响,,给定,X,时,,Y,正态分布,(,N,ormal),,给定,X,取值时,,Y,的取值服从正态分布,,等方差,(,E,qual variance),,指对应于不同的,X,值,,Y,值的总体变异相同,直线回归应用条件,LINE,示意图,,,,,,回归方程有统计学意义吗,,建立样本直线回归方程,只是完成了统计分析中两变量关系的统计描述,这种关系是否有统计学意义,还需要进一步进行假设检验。,,检验回归模型是否成立:方差分析,,检验总体回归系数,β,是否为零:,t,检验,例,1:,,某研究者研究大气污染物一氧化氮(,NO,)的浓度(,ppm,

4、)与汽车流量(千辆)、气温(℃)、空气湿度(,%,)、风速(,m/s,)等因素的关系,结果见表,1,:,单位时间内过往的汽车数(千辆)、气温(℃)、空气湿度(,%,)、风速(,m/s,)这四个因素是否都对空气中一氧化氮(,NO,)的浓度(,ppm,)有影响?,,如何定量地描述这些因素对一氧化氮浓度的影响?,,哪个因素对一氧化氮浓度的影响最大?哪个因素的影响最小?,,如果利用这些影响因素去预测空气中一氧化氮的浓度,如何预测?效果如何?,第一节 多重线性回归,多重,线性回归,(,multiple,linear regression),,因变量,:,一个,,,Y,,自变量,:,多个,,,X,1,,

5、X,2,,X,3,,…,,,Xp,,方程:,,,概 念,多元,线性回归,(,multi- variate,linear regression),,简称,多元,回归,(,multi- variate,regression):,,因变量,:,多个,,,Y,1,,,Y,2 ,,…,,自变量,:,多个,, X1, X2, X3,,…,方程:,,多重线性回归方程,多重线性回归方程是简单线性回归方程的扩展,,,其中 表示当所有,自变量为,0,时反应变量,Y,的总体平均值,。 为变量,X,i,,,的,总体偏回归系数,(,partial regression coefficient,),,表示当方程

6、中其他自变量保持常量时,自变量,Xi,每增加(或减少)一个计量单位,,,反应变量,Y,平均变化 个单位。,,,,样本回归方程,,,,反应变量,Y,的总体平均值,的估计值。,b,0,的估计。,为常数项,又称为截距,是总体参数,b,i,为自变量,X,i,,的偏回归系数,,,是总体参数 的,估计值。,,如果要建立由车流量( )和风速( )预测一氧化氮浓度(,Y,)的线性回归方程,模型可以写成:,,,,,表示在车流量不变的情况下,风速每增加一个单位(,1m/s,),,,估计空气中一氧化氮的浓度平均改变,个单位(,ppm,)。,表,13-1,,多重线性回归分析数据格式,,前提条件(,LINE,

7、),多重线性,回归分析步骤,求回归方程,-----,最小二乘原则,,假设检验,-----,检验回归方程是否具有统计学意义,模型有意义的前提下,再分别对,各偏回归系数,进行假设检验,。,,(3),变量选择,-----,以尽量少的自变量,,,达到较好地解释,Y,的目的,,,基本原理,:,,寻找一套适宜的偏回归系数( ),建立多重线性回归方程,使得反应变量的观测值 与回归方程的估计值,回归系数的估计,求回归方程,采用,最小二乘法,,(least squared method),来估计偏回归系数,,之间的残差平方和最小。,SPSS,实现方法:,Analyze--

8、-Regression---Linear---,,y,选入,Dependent,,x,1,、,x,2,、,X,3,...X,P,选入,Independent,,Method---,Enter,,Stepwise,,,Backward,,,,Forward,---ok,,当建立样本回归方程后,首先要考察这个回归方程是否有意义?即在, , , , 中,,,是否至少存在一个自变量与,Y,的总体均数呈线性关系?,,回归方程的效果如何?也即是这四个自变量能够解释反应变量的变异的百分比是多少?,,四个自变量是否都对反应变量有影响?即各个偏回归系数( )所对应的总体偏回归系数(

9、 )是否等于,0,?,考虑:,,,,,,,,回归的目的,:,估计,,H,0,成立时,,,只能用,Y,的均数 来估计,,残差,: ,,自由度,=,,H,1,成立时,,,给定 可以用 来估计,,残差,:,,,自由度,=,,,残差减少了,,统计推断,这个回归方程有统计学意义吗,?,,,,,,,,,,,,,----,这是回归模型的贡献,,,自由度,=,,,方差分析的基本思想,总变异,:把反应变量的观察值的离均差平方和记为 ,它反映了没有利用自变量的信息时的观察值的变异性,即没有考虑车流量、气温、气湿和风速等因素的情况下一氧化氮浓度的变异的

10、大小,其自由度记为,(,n,为样本量)。,,根据回归方程计算得到的预测值 与实际观察值,,之间的差异称为残差,记残差的离均差平方和为,,,它反映了的变异中不能由回归解释的部分,其自由度记为,,,,,P,为自变量个数。,,,,把 与 之差记为回归平方和 ,它反应了回归模型的贡献,即车流量、气温、气湿和风速等因素对一氧化氮浓度的影响,,,其自由度记为 。,,,,,,,,,表,13-2,方差分析表,,表,13-3,,检验回归方程整体意义的方差分析表,,,,,,变异来源,自由度,,,,,回归,4,0.064,0.016,17.59,<.001,残差,19,0.017,0.

11、001,,,总,23,0.081,,,,,表中,值小于,0.001,,按照,0.05,的检验水准,可以拒绝,认为所建立的回归方程是有意义的。用这四个自变量构,,成的回归方程解释空气中一氧化氮浓度的变化是有意义的。,回归模型好坏的评价,1)拟合的回归方程在总体上有统计学意义,,2) 决定系数R,2,,R,2,=1-SS残/SS总= SS模/SS总,,,,它表示在因变量y的总变异中可由回归方程所解释部分的比例。,,0

12、

13、%的变异,可以,,认为回归的效果较好,。,复相关系数,,(coefficient of multiple correlation),又称多重相关系数,,,,,回归系数的假设检验,,由于存在抽样误差,即使总体偏回归系数为零,也可能得到样本偏回归系数不为零的情形,因此需要对偏回归系数进行假设检验,以推断总体偏回归系数是否为零,。,,,,检验统计量为,,其中, 是第 个偏回归系数的标准误,,车流量、气温、风速对一氧化氮浓度的影响有统计学意义( ),,但是气湿的影响没有统计学意义( )。,)。,,,标准偏回归系数,Standardized partial regression

14、coefficient,所有变量标准化后做回归,,,所得系数称为标准偏回归系数,.,,注意:,,,一般回归系数,有单位,用来解释各自变量对应变量的影响,表示在其它自变量保持不变时, 增加或减少一个单位时,Y,的平均变化量。 不能用各 来比较各 对 的影响大小。,,,标准化回归系数,无单位,用来比较各自变量对应变量的影响大小, 越大, 对 的影响越大。,第二节 回归分析中变量的选择,并不是事先考虑的所有的自变量对反应变量的影响都有统计学意义。,,在许多研究中,多因素线性回归分析的目的是建立一个预测效果最优的回归模型,需要对自变量进行筛选:,,将对反应变量没有影响的自

15、变量从模型中剔除,将对反应变量的作用有意义的自变量纳入模型当中。,残差平方和( )缩小或确定系数( )增大,,,,越小越好!,越大越好!,,然而,,,,只要增加自变量个数,,,这个量就会减小,!?,自变量筛选的统计学标准,残差的均方( )缩小或调整确定系数( )增大,,,,,自变量筛选的统计学标准,AIC,统计量,AIC,值达到最小,该模型为最佳模型,,AIC,准则,自变量筛选的统计学标准,自变量筛选的方法,最优子集回归分析法:,,,p,个变量有,2,p,-,1,个方程,,逐步回归分析:,,向前引入法,(,forward selection,),,向后剔除法,(,

16、backward selection,),,逐步引入-剔除法,(,stepwise selection,),,,(一)最优子集回归法,求出所有自变量可能组合子集的回归方程的模型(共有,2,p,-,1,个),按一定准则选择最优模型,常用的准则有:,,① 校正决定系数或残差的均方(考虑了自变量的个数),,②,AIC(Akaike`s Information Criterion),准则;,AIC,越小越好,,最优子集法的局限性,,,如果自变量个数为,4,,则所有的回归有,2,4,-,1,=,15,个;当自变量数个数为,10,时,所有可能的回归为,2,10,-,1,=,1023,个;,……,..,;当

17、自变量数个数为,50,时,所有可能的回归为,2,50,-,1≈10,15,个。,,,前进法(,forward selection,),,后退法(,backward elimination,),,逐步回归法(,stepwise regression,)。,它们的共同特点是每一步只引入或剔除一个自变量。决定其取舍则基于对,偏回归平方和,的,F,检验,它表示在原有回归方程基础上引入或剔除某一自变量后所增加或减少的那部分回归平方和,.,(二)逐步回归分析,(,1,)前进法,,自变量从无到有、从少到多,,将偏回归平方和最大且能使回归系数检验拒绝者入选为第一个自变量;规定一个界值,,,接着将余下的变量中偏

18、回归平方和最大并使检验拒绝者选为第二个自变量;,……,,如此不断引入新的自变量,直到再不能拒绝时为止。,,局限性:只进不出,后续变量的引入可能会使先进入方程的自变量变得不重要。,(,2,)后退法,,先将全部自变量放入方程,然后逐步剔除,,首先对全部候选变量作总的回归,每次剔除一个偏回归平方和最小而使回归系数的检验不能拒绝者。,,直到再不能剔除时为止 。,,,,局限性:只出不进,,自变量高度相关时,可能得不出正确的结果;开始时剔除的变量即使后来变得有显著性也不能再进入方程 。,(,3,)逐步回归法,,双向筛选(实际应用最多):,在向前引入的每一步之后都要考虑从已引入方程的变量中剔除相形见绌者,,

19、引入,有意义的变量(前进法),,剔除,无意义的变量(后退法),先规定两个阈值,P,引入,和,P,剔除,(,P,引入,<,P,剔除,),,当候选变量中最大,P,值≤,P,引入,时,引入相应变量;已进入方程的变量最小,P,值≥,P,剔除,时,剔除相应变量。如此交替进行直到无引入和无剔除为止(计算复杂),,,,,,多重线性回归的应用,(,1,)定量地建立一个反应变量与多个解释变量之间的线性关系。例如,建立肺活量的大小与身高、体重、年龄和性别之间的线性关系。,,(,2,)筛选危险因素。例如,筛选高血压的危险因素。,,(,3,)通过较易测量的变量估计不易测量的变量。例如,建立婴儿体表面积关于身高、体重、

20、月龄的多因素线性回归方程,可以通过容易测量的身高、体重、月龄等变量估计不易测量的体表面积。,,(,4,)通过解释变量预测反应变量。例如,通过风速、汽车流量、气温等指标预测空气中一氧化氮的浓度。,,(,5,)通过反应变量控制解释变量。例如,在气温、风速不变的情况下,通过控制汽车流量来实现空气中一氧化氮浓度不超过一定的水平。,多重线性回归的应用,多重线性回归应用时的注意事项,,1,.样本含量,,2,.方程“最优”问题,,3,.关于逐步回归,,4,.多重共线性,,5.,哑变量设定,,6.,变量间的交互作用,,7.,残差分析,多重共线性是指在进行多元回归分析时,自变量间存在较强的线性相关关系。共线关系

21、的存在,可使得,估计系数方差,加大,系数估计不稳,结果分析困难。因此在多因素线性回归分析时,特别是当回归结果难以用专业知识解释时,要进行,共线性诊断,,找出存在共线性且不重要的那些自变量,剔出方程,另行回归分析。,,对于存在共线性的资料,可以利用共线性诊断有选择的保留自变量以消除共线性;或者采用岭回归、主成分回归等回归分析方法以避免共线性指标对结果的影响。剔除某个造成共线性的自变量,重建回归方程;合并自变量;采用逐步回归方法。,,4,.多重共线性,,多重共线性的表现在实际应用中主要表现为:,,(,1,)模型拟合效果很好,但偏回归系数几乎都,无统计学意义,;,,(,2,)偏回归系数估计值的,方差

22、,很大;,,(,3,)偏回归系数估计值,不稳定,,随着样本含量的增减各偏回归系数发生较大变化或当一个自变量被引入或剔除时其余变量偏回归系数有很大变化;,,(,4,)偏回归系数估计值的大小与符号可能与事先期望的不一致或,与经验相悖,,结果难以解释,,出现以上表现,提示存在多重共线性问题,应进行多重共线性诊断。,,方差膨胀因子,VIF,(2),容忍度(,tolerance,),,,以每个自变量作为应变量,对其他自变量进行回归分析时得到的残差比例,大小用,1-R,2,来表示,该指标越小,则说明该自变量被其余变量预测的越精确,共线性可能越严重。如果自变量的容忍度小于,0.1,,则可能存在共线性问题。,

23、5,哑变量的设定,2,分类,可用一个(,0,,,1,)变量。如性别,,k,分类,,k-1,个(,0,,,1,)变量,如血型。,,多重线性回归分析有时先将有序变量或无序多分类变量转换成为多个二分类变量之后,才能将它们引入回归模型。,,,将有序变量或无序多分类变量转换成为多个二分类变量的过程常被称为“哑元化(,dummying,)”,,,得到的多个二分类变量称为“哑变量(,dummy variable,)”。,,,一般情况下,若某定性变量有,k,个水平,就需要引入,k-1,个二值的哑变量。,,血型是一个无序多分类变量,它的取,“,值,”,是,A,、,B,、,AB,、,O,四种,,,可以用,3,个二

24、分类变量来描述。令,,,表,11-5,用二分类哑变量描述血型,,,,,,,,,血型,变量,,,,,,,,1,0,0,,0,1,0,,0,0,1,,0,0,0,,(,1,)无序多分类变量 定量,,数据格式,回归方程,,建立回归方程,,,b,1,,:,相当,A,型相对于,O,型的差别,,b,2,,:相当,B,型相对于,O,型的差别,,b,3,,:相当,AB,型相对于,O,型的差别,,,,(,2,)等级,,定量。,,,一般是将等级从弱到强转换为 (或,,)如文化程度分为小学、中学、大学、大学以上四个等级。,,Y,为经济收入。,,,,解释:,b(b,1,

25、),反映,X,(,X,1,),增加,1,个单位,,,增加,b,个单位(如:,500,元)。 表示中学文化者较小学文化者收入多,500,,,,大学较中学多,500,,余类推。,b,1,,,b,2,,,b,3,分别反映中学、大学、大学以上相对于小学文化程度者经济收入差别的大小,,也可将,K,个等级转换为,K-1,个(,0,,,1,)变量,,为了检验两个自变量是否具有交互作用,,,,普遍的做法是在方程中加入它们的乘积项。,6.,变量间的交互作用,例,2,,某项研究调查了,3334,名有心脏疾患的妇女,了解血清高密度脂蛋白胆固醇(,HDL cholesterol,,,mg/dl,)与体质指数(

26、,body mass index, BMI, kg/m2,)的关系,考虑到是否患糖尿病(,DIABETES,)也是影响,HDL,水平的因素,因此建立了一个以体质指数、是否患糖尿病为自变量,,HDL,为反应变量的线性回归方程,结果如表,13-4,所示。,表,13-4,以体质指数、是否患糖尿病为自变量的线性回归方程,,变量,b,SE,t,P,95%CI,,BMI,-0.391,0.017,-22.531,0.000,-0.426,-0.357,DIABETES,-4.783,0.092,-52.207,0.000,-4.962,-4.603,CONSTANT,67.551,0.363,185.84

27、7,0.000,66.839,68.264,F=2441.323, P<0.001; R,2,=0.594, adjR,2,=0.594, Root MSE=2.02,模型假定HDL的平均水平随BMI的变化而变化的规律在糖尿病妇女和非糖尿病组之间,,是相同的,表现为相同的偏回归系数 -0.391,,,在多重线性回归模型中引入一个新的自变量(,DMBMI,),定义为,BMI,和,DIABETES,的乘积,这个乘积项描述的是两个自变量与反应变量之间的关系。由于两个自变量已经在模型中,乘积项就可以解释为交互作用。,表,13-5,以体质指数、是否患糖尿病为自变量,包含交互作用项的线性回归结果,,Var

28、iable,b,SE,t,P,95%CI,,DIABETES,-11.340,0.965,-11.755,<0.001,-13.231,-9.448,BMI,-0.735,0.053,-13.822,<0.001,-0.839,-0.631,DMBMI,0.278,0.041,6.828,<0.001,0.198,0.358,CONSTANT,75.544,1.225,61.672,<0.001,73.142,77.945,F=1665.379, P=0.000; R,2,=0.600, adjR,2,=0.600, Root MSE=2.01,,,所以,对于非糖尿病人,有,,,对于患糖尿病的

29、妇女,有,,,,反映了患糖尿病的妇女,HDL,与,BMI,的关系,,反映了非糖尿病患者,HDL,与,BMI,的关系,刻画了糖尿病组和非糖尿病组的妇女HDL与BMI回归关系的差异。,,,7.,残差分析,,残差定义为( )。通常使用残差图,(residual plot),作为一种直观有效的非正式检查方法。绘制残差与反应变量的预测值的散点图考察模型是否满足线性和方差齐性,.,,,如果散点随机地分布在以为中心的、与横轴平行的的带状区域内,如图(,a,)所示,就可以认为基本满足线性和等方差的假定条件。,,图(,b,)、(,c,)的散点呈现曲线趋势,提示资料不满足线性的假定。,,图(,d,)、(,e

30、,)、(,f,)显示残差随 的变化而变化,提示资料不满足方差齐的前提条件。,,图(,g,)、(,h,)显示残差不仅随 的变化而变化,而且散点呈现曲线趋势,提示资料不满足线性和方差齐性的前提条件。,,,二、多元相关分析,(,multiple correlation analysis),,研究两个变量之间的关系时,所求出的相关系数为简单相关系数。当存在,3,个(或以上)变量时,且彼此间有联系,就需要作多元相关分析,。,,,,,,,83,,(,1,)数据形式,,,设研究问题中有,p,个指标变量,x1,、,x2,、,…,、,xp,,,n,个观察对象,其数据结构见表,1,。,,表,1,多元偏相关分

31、析数据结构,,编号,X1 X2,…,. XP,,1 x11 x21,…,x1p,,2 x12 x22,…,x2p,,3 x13 x23,…,x3p,,,…,,…,,…,,…,,…,,,n x1n x2n,…,xnp,,,,84,(,2,)偏相关系数,,(,partial correlation coefficient),,,研究两个变量之间的关系时,所求出的相关系数为简单相关系数。当存在,3,个(或以上)变量时,当把其中两个变量以外的其他变量对它们的影响都扣除掉(或平衡掉)以后,求得的相关系数为,偏相关系数。,,,,,,,85,,一般

32、地,,,设有三个变量,X1 ,X2,和,X3 ,,扣除,X3,的线性效应后,X1,和,X2,的偏相关系数记为,r,12,3,,,扣除,X1,的线性效应后,X2,和,X3,的偏相关系数记为,r,23,1,,,…,,,其绝对值介于,0,与,1,之间,可正可负。,,计算公式为:,,,,,其中分别代表,3,个变量的下标。,,,86,[,例,1],随机抽查测得,9,名少年的身高,,,体重和胸围值见表,2,。试问身高与胸围的相互关系怎样,?,,,表,2 9,名少年的身高,,,体重和胸围值,,例号 体重,X1,胸围,X2,身高,x3,,,1 14.0 53

33、.5 95.5,,2 13.0 52.0 92.0,,3 12.5 53.5 89.0,,4 53.5 82.0 168.0,,5 11.0 48.0 91.0,,6 11.5 47.0 91.0,,7 12.5 50.0 91.0,,8

34、 55.0 83.0 156.0,,9 51.0 79.0 163.0,,,87,若用简单相关:,,r23=0.98293, P=0.0001,,说明身高与胸围呈高度正相关,身高是随胸围增加而增加的。,,88,,身高是随胸围增加而增加这一结果与实际是,相矛盾的。,,,理论上说,身高与胸围无关的。,,造成这一矛盾的主要原因是在考虑胸围与身高的关系时,,,忽略了体重这一因素的影响。,,如果需要真正表示这两个变量的相关关系,,,那么在必须除去其它变量的影响下,,,计算它们的偏相关系数。,89,,如:扣除,X1,计算,X2,与,X3,之间的偏相关系数。,,,,,得到:,r23,1=-0.25559, P=0.5412,,,说明如果没有体重的影响,,,即假如两个人的体重相同,,,则其中身高者,,,相对较瘦,(,胸围小,),,身矮者,,,相对较胖,(,胸围大,),。,,,P,值说明身高与胸围的关系无统计学意义, 这与实际情况相符合,.,,操作过程,:,,,Analyze---correlate---partial---X2,与,X3,选入,variables----X1,选入,controlling----OK,,90,

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

相关资源

更多
正为您匹配相似的精品文档
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  sobing.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!