SPSS统计分析 第六章 回归分析.ppt

上传人:w****2 文档编号:16566662 上传时间:2020-10-13 格式:PPT 页数:47 大小:895.50KB
收藏 版权申诉 举报 下载
SPSS统计分析 第六章 回归分析.ppt_第1页
第1页 / 共47页
SPSS统计分析 第六章 回归分析.ppt_第2页
第2页 / 共47页
SPSS统计分析 第六章 回归分析.ppt_第3页
第3页 / 共47页
资源描述:

《SPSS统计分析 第六章 回归分析.ppt》由会员分享,可在线阅读,更多相关《SPSS统计分析 第六章 回归分析.ppt(47页珍藏版)》请在装配图网上搜索。

1、第六章 回归分析 变量之间的联系 确定型的关系:指某一个或某几个现象的变动必然会 引起另一个现象确定的变动,他们之间的关系可以使 用数学函数式确切地表达出来,即 y=f(x)。当知道 x的 数值时,就可以计算出确切的 y值来。如圆的周长与 半径的关系:周长 =2r。 非确定关系:例如,在发育阶段,随年龄的增长,人 的身高会增加。但不能根据年龄找到确定的身高,即 不能得出 11岁儿童身高一定就是 1.40米公分。年龄与 身高的关系不能用一般的函数关系来表达。研究变量 之间既存在又不确定的相互关系及其密切程度的分析 称为相关分析。 回归分析 如果把其中的一些因素作为自变量,而另一 些随自变量的变化

2、而变化的变量作为因变量, 研究他们之间的非确定因果关系,这种分析 就称为 回归分析 。 回归分析是研究一个自变量或多个自变量与 一个因变量之间是否存在某种线性关系或非 线性关系的一种统计学方法。 线性回归分析; 曲线回归分析; 二维 Logistic回归分析; 多维 Logistic回归分析; 概率单位回归分析; 非线性回归分析; 权重估计分析; 二阶段最小二乘分析; 最优编码回归。 一、线性回归 (一)一元线性回归方程 直线回归分析的任务就是根据若干个观测( xi, yi) i=1 n 找出描述两个变量 x、 y之间关系的直线回归方程 y=a+bx。 y是变量 y的估计值。求直线回归方程 y

3、=a+bx,实际上是用 回归直线拟合散点图中的各观测点。常用的方法是最小二乘 法。也就是使该直线与各点的纵向垂直距离最小。即使实测 值 y与回归直线 y之差的平方和 (y-y)2达到最小。 (y-y)2 也称为剩余(残差)平方和。因此求回归方程 y=a+bx的问 题,归根到底就是求 (y-y)2取得最小值时 a和 b的问题。 a称 为截距, b为回归直线的斜率,也称回归系数。 1、一元线性回归方程的适用条件 线形趋势 :自变量与因变量的关系是线形的,如果不 是,则不能采用线性回归来分析。 独立性 :可表述为因变量 y的取值相互独立,它们之 间没有联系。反映到模型中,实际上就是要求残差间 相互独

4、立,不存在自相关。 正态性: 自变量 x的任何一个线形组合,因变量 y均服 从正态分布,反映到模型中,实际上就是要求随机误 差项 i服从正态分布。 方差齐性 :自变量的任何一个线形组合,因变量 y的 方差均齐性,实质就是要求残差的方差齐。 2、一元线性回归方程的检验 检验的假设是总体回归系数为 0。另外要检验回归方 程对因变量的预测效果如何。 ( 1)回归系数的显著性检验 对斜率的检验,假设是:总体回归系数为 0。检验该 假设的 t值计算公式是; t=b/SEb,其中 SEb是回归系 数的标准误。 对截距的检验,假设是:总体回归方程截距 a=0。检 验该假设的 t值计算公式是: t=a/SEa

5、,其中 SEa是截 距的标准误。 ( 2) R2判定系数 在判定一个线性回归直线的拟合度的好坏时, R2系 数是一个重要的判定指标。 R2判定系数等于回归平方和在总平方和 中所占的比率 , 即 R2体现了回归模型所能解释的因 变量变异性的百分比。 如果 R2=0.775,则说明变量 y 的变异中有 77.5是由变量 X引起的。当 R2 1时, 表示所有的观测点全部落在回归直线上。当 R2=0时, 表示自变量与因变量无线性关系。 为了尽可能准确的反应模型的拟合度, SPSS输出中 的 Adjusted R Square是消除了自变量个数影响的 R2 的修正值。 )( )( 2 2 2 yy yy

6、R i i ( 3)方差分析 体现因变量观测值与均值之间的差异的偏差平方和 SSt是由两个部分组成: SSt=SSr SSe SSr:回归平方和,反应了自变量 X的重要程度; SSe :残差平方和,它反应了实验误差以及其他意外 因素对实验结果的影响。 这两部分除以各自的自由度, 得到它们的均方。 统计量 F=回归均方残差均方。当 F值很大时,拒 绝接受 b=0的假设。 ( 4) Durbin Watson检验 在对回归模型的诊断中,有一个非常重要的 回归模型假设需要诊断,那就是 回归模型中 的误差项的独立性 。如果误差项不独立,那 么对回归模型的任何估计与假设所作出的结 论都是不可靠的。其参数

7、称为 DW或 D。 D的 取值范围是 0 D 4,统计学意义如下: 当残差与自变量互为独立时 D2; 当相邻两点的残差为正相关时, D2 ( 5)残差图示法 在直角坐标系中,以预测值 y为横轴,以 y与 y之间的误差 et为纵轴 (或学生化残差与拟和 值或一个自变量),绘制残差的散点图。如 果散点呈现出明显的规律性则 ,认为存在自相 关性或者非线性或者非常数方差的问题。 (二)多元线性回归 多元线性回归:根据 多个自变量 的最优组合建立回归 方程来预测因变量的回归分析称为多元回归分析。多 元回归分析的模型为: y=b0+b1x1+b2x2+ +bnxn 其中 y为根据所有自变量 x计算出的估计

8、值 , b0为常 数项 , b1、 b2 bn称为 y对应于 x1、 x2 xn的偏回归 系数。 偏回归系数表示假设在其他所有自变量不变 的情况下,某一个自变量变化引起因变量变化的比 率。 多元线性回归模型也必须满足一元线性回归方程中所 述的假设理论。 2.多元线性回归分析中的参数 ( l) 复相关系数 R 复相关系数表示因变量 xi 与他的自变量 y之间 线性相关密切程度的指标,复相关系数使用 字母 R表示。 复相关系数的取值范围在 0 1之间。其值越 接近 1表示其线性关系越强,越接近 0表示线 性关系越差。 ( 2) R2判定系数与经调整的判定系数 与一元回归方程相同,在多元回归中也 使

9、用判定系数 R2来解释回归模型中自变量的变异在因变量变异中 所占比率。 但是,判定系数的值随着进入回归方程的自变量的 个数(或样本容量的大小 n)的增加而增大。因此, 为了消除自变量的个数以及样本量的大小对判定系数 的影响,引进了经调整的判定系数( Adjusted R Square)。 )1( )1(1 )( )( 2 2 2 ni kni yy yyA d j u s t e d R K为自变量的个数, n为观 测量数目。自变量的个数 大于 时,其值小于判定系 数。自变量个数越多,与 判定系数的差值越大。 ( 3)零阶相关系数、部分相关与偏相关系数 零阶相关系数( Zero Order)计

10、算所有自变量与因 变量之间的简单相关系数。 部分相关( Part Correlation)表示:在排除了其他自 变量对 xi的影响后,当一个自变量进入回归方程模型 后,复相关系数的平均增加量。 偏相关系数( Partial Correlation )表示:在排除了 其他变量的影响后;自变量 Xi与因变量 y之间的相关 程度。部分相关系数小于偏相关系数。偏相关系数也 可以用来作为筛选自变量的指标,即通过比较偏相关 系数的大小判别哪些变量对因变量具有较大的影响力。 3、多元线性回归分析的检验 建立了多元回归方程后,需要进行显著性检 验,以确认建立的数学模型是否很好的拟和 了原始数据,即该回归方程是

11、否有效。利用 残差分析,确定回归方程是否违反了假设理 论。对各自变量进行检验。 其假设是总体的 回归方程自变量系数或常数项为 0。 以便在回 归方程中保留对因变量 y值预测更有效的自变 量。以便确定数学模型是否有效。 ( l)方差分析 多元回归方程也采用方差分析方法对回归方程进行 检验, 检验的 H0假设是总体的回归系数均为 0(无效 假设), H1假设是总体的回归系数不全为 0(备选假 设)。 它是对整个回归方程的显著性检验。使用统 计量 F进行检验。原理与一元回归的方程分析原理相 同。 )1( )( )( MS 2 i 2 i pnyy yy F MS 残差 回归 ( 2)偏回归系数与常数

12、项的检验 在多元回归分析中,可能有的自变量对因变 量的影响很强,而有的影响很弱,甚至完全 没有作用,这样就有必要对自变量进行选择, 使回归方程中只包含对因变量有统计学意义 的自变量; 检验的假设是:各自变量回归系数为 0,常数 项为 0。它使用的统计量是 t; t=偏回归系数 /偏回归系数的标准误 ( 3)方差齐性检验 方差齐性是指残差的分布是常数,与预测变 量或因变量无关。即残差应随机的分布在一 条穿过 0点的水平直线的两侧。在实际应用中, 一般是绘制因变量预测值与学生残差的散点 图。在线性回归 Plots对话框中的源变量表中 , 选择 SRESID(学生氏残差)做 Y轴;选择 ZPRED(

13、标准化预测值)做 X轴就可以在执 行后的输出信息中显示检验方差齐性的散点 图。 共线性诊断 在回归方程中,虽然各自变量对因变量都是有意义的, 但 某些自变量彼此相关,即存在共线性的问题。 给 评价自变量的贡献率带来困难。因此,需要对回归方 程中的变量进行共线性诊断;并且确定它们对参数估 计的影响。 当一组自变量精确共线性时,必须删除引起共线性 的一个和多个自变量,否则不存在系数唯一的最小 二乘估计。因为删除的自变量并不包含任何多余的 信息,所以得出的回归方程并没有失去什么。当共 线性为近似时,一般是将引起共线性的自变量删除, 但需要掌握的原则是:务必使丢失的信息最少。 进行共线性论断常用的参数

14、有 ( l)容许度( Tolerance) 在只有两个自变量的情况下,自变量 X1与 X2之间共 线性体现在两变量间相关系数 r12上。精确共线性时 对应 r122 1,当它们之间不存在共线性时 r122 0。 r122越接近于 1,共线性越强。 多于两个自变量的情况, Xi与其他自变量 X之间的复 相关系数的平方体现其共线性,称它为 Ri2。它的 值 越接近 1,说明自变量之间的 共线性程度越大 。 容许度定义为 Toli l一 Ri2 当容许度的值较小时,自变量 Xi 与其他自变量 X之间 存在共线性。 使用容许度作为共线性量度指标的条件是,观测量 应大致近似于正态分布,但在大多数情况下观

15、测量的 正态分布的假设是不被接受的。而且,由于容许度中 相关系数对极端值极为敏感 , 所以用它来作为共线性 的量度指标是不适合的。 ( 2)方差膨胀因子( VIF) 方差膨胀因于( VIF)定义为 VIF 1/(l一 Ri2 ),即它是 容许度的倒数。 它的值越大,自变量之间存在共线性的 可能性越大。 ( 3)条件参数( Condition Index) 条件参数是在计算特征值时产生的一个统计量,其具体 含义尚不大清楚,但己经提出一些原则: 其数值越大, 说明自变量之间的共线性的可能性越大; 有些学者提议, 条件参数 30时认为有共线性存在的可能性,但理论上 并没有得到证明。 特征值( Eig

16、envalue)如果很小,就 应该怀疑共线性的存在。 例 题 Data09-03美国某银行雇员情况调查,建立一 个使用初始工资( salbegin)、工作经验 ( prevexp)、工作时间( jobtime)、工作 类型( jobcat)、受教育年限( educ)预测 当前工资( salary)的回归方程。 1变量间线性关系的初步探索 在获得数据后,应将所得到的数据绘图,探索因变量 随自变量变化的趋势。以便确定数据是否适合线性模 型。如果数据之间大致呈线性关系,可以建立线性回 归方程。如果图中数据不呈线性分布,那么还可以根 据其他回归方程模型的观测量分布图形特点以及建立 各方程后所得的判定系

17、数 R2进行比较后确定一种最 佳模型。见曲线拟合及非线性回归。 通过散点图还可以发现奇异值,如图中画圈的观测值 要认真检查数据的合理性。 2、选择自变量和因变量 3、选择回归分析方法 Enter选项,强行进入 法 ,即所选择的自变量 全部进人回归模型,该 选项是默认方式。 Remove选项,消去法, 建立的回归方程时,根 据设定的条件剔除部分 自变量。 Forward选项,向前选择 法, 根据在 option对话框中 所设定的判据,从无自变 量开始。在拟合过程中, 对被选择的自变量进行方 差分析,每次加入一个 F值 最大的变量,直至所有符 合判据的变量都进入模型 为止。第一个引入归模型 的变量

18、应该与因变量间相 关系数绝对值最大。 Backward选项,向后 剔除法 ,根据在 option 对话框中所设定的判据, 先建立全模型,然后根 据设置的判据,每次剔 除一个使方差分析中的 F值最小的自变量,直 到回归方程中不再含有 不符合判据的自变量为 止。 Stepwise选项,逐步进入法 ,它 是向前选择变量法与向后剔除变量 方法的结合。根据在 option对话框 中所设定的判据,首先根据方差分 析结果选择符合判据的自变量且对 因变量贡献最大的进入回归方程。 根据向前选择变量法则选入变量。 然后根据向后剔除法,将模型中 F 值最小的且符合剔除判据的变量剔 除出模型,重复进行直到回归方程 中

19、的自变量均符合进入模型的判据, 模型外的自变量都不符合进入模型 的判据为止。 4、选择参与回归的观测量 根据变量值选择参与回 归分析的观测量,将作 为参照的变量进入 Selection Variable框中, 单击 Rule按钮。打开 Set Rule对话框。 5、 Statistics按钮 Estimates:输出回归系数 B、 B的标准误、标准回归 系数 beta、 B的 t值及 t值的双侧检验的显著性水平; Confidence interval:输出每一个非标准化回归系数 95的可信区间; Covariance maxtrix:输出非标准化回归系数的协方 差矩阵、各变量的相关系数矩阵;

20、 Model fit(模型拟合):输出引入模型与从模型中剔除的变量, 提供复相关系数 R, R2及其修正值,估计值的标准误,方差分 析表; R squared change:表示回归方差中引入或剔除一个自变量后 的 R2变化量; Descriptives:输出合法观测量的数目、变量的平均值、标准差、 相关系数矩阵和单侧检验显著性水平 Part and partial correlations:输出部分相关系数、偏相关 系数、零阶相关系数; Collinearity diagnostics:输出方差膨胀因子及特征值; Durbin Watson:输出 Durbin Watson统计量及可能的 奇

21、异值; Casewise diagnostics:输出观测量检测表; 6、 plot按钮 Dependent:因变量; ZPRED:标准化预测值 ZRESID:标准化残差 DRESID:剔除残差 ADJPRED:修正后预测值 SRESID:学生化残差 SDRESID:学生化剔除残差 Histogrom:输出带有正态曲 线的标准化残差的直方图; Normal probability plot:残 差的正态概率图,检查残差 的正态性; Produce all partial plots:输 出一个自变量残差相对于因 变量残差的散布图。 Option按钮 Stepping method criter

22、ia(设 置变量引入模型或从模型中 剔除的判据 ) Use probability of F:采用 F 概率作为变量引入模型或从 模型中剔除的判据。 Entry: 0.05当一个变量的 sigT值 0.05时该变量被引入 方程; Removal: 0.10当一个变量 的 sigT值 0.10时该变量从回 归方程剔除。 Use F values(采用 F值作为 变量引入模型或从模型中剔 除的判据) Entry: 0.05当一个变量的 sigF值 3.84时该变量被引入 方程; Removal: 0.10当一个变量 的 sigF值 2.71时该变量从回 归方程剔除。 练习题 为研究男性高血压患者血

23、压与年龄、身高、 体重等变量间的关系,随机测量了 32名 40岁 以上的男性患者的血压、年龄、体重以及吸 烟史(过去吸烟或现在吸烟设置为 1,不吸烟 为 0)。试建立回归方程。 Mreg2.sav 二、曲线回归分析 线性回归可以满足许多数据分析,然而线性 回归不会对所有的问题都适用,有时因变量 与自变量是通过一个已知或未知的非线性函 数关系相联系。尽管有可能通过一些函数的 转换方法,在一定范围内将它们转变为线性 关系,但这种转换有可能导致更为复杂的计 算或数据失真。 在很多情况下有两个相关的变量,用户希望 利用其中的一个变量对另一个变量进行预测, 此时可采用的方法也很多;从简单的直线模 型到复

24、杂的时间序列模型。如果不能马上根 据观测量数据确定一种最佳模型,可以利用 曲线估计在众多的回归模型中来建立一个简 单而又比较适合的模型。 例 题 汽车每加仑汽油行驶的里程数( mpg)与汽 车重量( weight)建立回归方程。 Data13 01 线形回归方程 Y=b0+b1X 二次回归方程 Y=b0+b1X+b2X2 复合曲线回归方程 Y=b0(b1X) 等比级数曲线回归方程 对数回归方程 三次回归方程 Y=b0+b1X+b2X2+b3X3 三、 Logistic回归分析 多元线性回归要求 Y是呈正态分布的连续型随机变量。 难以处理因变量为二值变量的情况。 在医学中,存在 很多二值化的状态

25、,比如生存与死亡、感染与不感 染、有效与无效、患病与不患病等等。这时,我们 往往要分析生存与死亡或感染与不感染与哪些因素 有关。而这些因素(自变量)可能是二值数据或等 级分组资料或是计量资料,此时,可以使用 logistic 回归来分析因变量(二值变量)与自变量的关系。 logistic回归的基本概念: 设 P表示某事件发生的概率,取值范围为 0 1, 1 P 是该事件不发生的概率,将比值 P/( 1 P)取自然 对数得 ln(P/1 P),即对 P作 logit转换,记为 logitP, 则 logitP的取值范围在 - , + 之间。以 logitP为因变 量,建立线形回归方程: logi

26、tP =b0+bixi p=exp( b0 +bixi) /1+ exp (b0 +bixi) OR=e=exp 可见: b0表示一个不接触危险因素(自变量 取值全为 0时)的个体发病(死亡或感染)的 比值的对数。 b0是常数。 bi 表示危险因素改变一个单位时,比值的对 数的改变量。在实际比较 xi对比值的对数影响 时,应使用标准化的系数,以克服自变量不 同量纲的影响。 bi称为 logistic回归系数。 数据背景( data13-02) 北京医科大学附属人民医院内分泌科卢纹凯教授课题。 颈总动脉中层厚度 imt0.8mm或有斑块定义为动脉硬 化,因变量 type值为 1;非硬化 imt 0.8mm且无斑块, 因变量 type值为 0。糖尿病患者 123例数据。研究哪 些指标可以判断糖尿病患者是否动脉硬化。自变量 AGE年龄、 ALB尿白蛋白、 BMI体重指数、 ISI胰岛素 敏感指数、 SBP收缩压、 TG甘油三脂、 CHO胆固醇、 DURA糖尿病程。其中尿白蛋白、甘油三脂、胆固醇 三项生化指标在回归估计过程中均使用他们的对数变 量: ALBLN、 TGLN、 CHOLN。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!