spss之线性回归详解

上传人:gao****ang 文档编号:121646410 上传时间:2022-07-19 格式:DOCX 页数:15 大小:133.24KB
收藏 版权申诉 举报 下载
spss之线性回归详解_第1页
第1页 / 共15页
spss之线性回归详解_第2页
第2页 / 共15页
spss之线性回归详解_第3页
第3页 / 共15页
资源描述:

《spss之线性回归详解》由会员分享,可在线阅读,更多相关《spss之线性回归详解(15页珍藏版)》请在装配图网上搜索。

1、第十章:多元线性回归与曲线拟合一Regression菜单详解(上)(医学统计之星:张文彤)上次更新日期:畀10.1 Linear 过程简单操作入门界面详解输出结果解释复杂实例操作分析实例结果解释10.2 Curve Estimation 过程界面详解实例操作10.3 Binary Logistic 过程界面详解与实例结果解释模型的进一步优化与简单诊断模型的进一步优化模型的简单诊断回归分析是处理两个及两个以上变量间线性依存关系的统计方法。在医学领 域中,此类问题很普遍,如人头发中某种金属元素的含量与血液中该元素的含量 有关系,人的体表面积与身高、体重有关系;等等。回归分析就是用于说明这种 依存变

2、化的数学关系。10.1 Linear 过程简单操作入门调用此过程可完成二元或多元的线性回归分析。在多元线性回归分析中,用 户还可根据需要,选用不同筛选自变量的方法(如:逐步法、向前法、向后法, 等)。例10.1 :请分析在数据集Fat surfactant.sav中变量fat对变量spovl的大小 有无影响?显然,在这里spovl是连续性变量,而fat是分类变量,我们可用用单因素 方差分析来解决这个问题。但此处我们要采用和方差分析等价的分析方法-回归 分析来解决它。回归分析和方差分析都可以被归入广义线性模型中,因此他们在模型的定 义、计算方法等许多方面都非常近似,下面大家很快就会看到。这里sp

3、ovl是模型中的因变量,根据回归模型的要求,它必须是正态分布的 变量才可以,我们可以用直方图来大致看一下,可以看到基本服从正态,因此不 再检验其正态性,继续往下做。界面详解在菜单中选择Regression=liner ,系统弹出线性回归对话框如下:除了大家熟悉的内容以外,里面还出现了一些特色菜,让我们来一一品尝。Dependent 框】用于选入回归分析的应变量。Block按钮组】由Previous和Next两个按钮组成,用于将下面Independent框中选入的自 变量分组。由于多元回归分析中自变量的选入方式有前进、后退、逐步等方法, 如果对不同的自变量选入的方法不同,则用该按钮组将自变量分组

4、选入即可。下 面的例子会讲解其用法。Independent 框】用于选入回归分析的自变量。Method下拉列表】用于选择对自变量的选入方法,有Enter (强行进入法)、Stepwise (逐步法)、Remove (强制剔除法)、Backward (向后法)、Forward (向前法)五种。该选项对当前Independent框中的所有变量均有效。Selection Variable 框】选入一个筛选变量,并利用右侧的Rules钮建立一个选择条件,这样,只有 满足该条件的记录才会进入回归分析。Case Labels 框】选择一个变量,他的取值将作为每条记录的标签。最典型的情况是使用记录 ID号的

5、变量。WLS钮】可利用该按钮进行权重最小二乘法的回归分析。单击该按钮会扩展当前对话 框,出现WLS Weight框,在该框内选入权重变量即可。Statistics 钮】弹出Statistics对话框,用于选择所需要的描述统计量。有如下选项:o Regression Coefficients复选框组:定义回归系数的输出情况,选中Estimates可输出 回归系数B及其标准误,t值和p值,还有标准化的回归系数beta;选中Confidence intervals则输出每个回归系数的95%可信区间;选中covariance matrix则会输出各个 自变量的相关矩阵和方差、协方差矩阵。以上选项默认只

6、选中Estimates oo Residuals复选框组:用于选择输出残差诊断的信息,可选的有Durbin-Watson残差 序列相关性检验、超出规定的n倍标准误的残差列表。o Model fit复选框:模型拟合过程中进入、退出的变量的列表,以及一些有关拟合优 度的检验:,R,R2和调整的R2,标准误及方差分析表。o R squared change复选框:显示模型拟合过程中R2、F值和p值的改变情况。o Descriptives复选框:提供一些变量描述,如有效例数、均数、标准差等,同时还给 出一个自变量间的相关矩阵。o Part and partial correlations复选框:显示自

7、变量间的相关、部分相关和偏相关系数。o Collinearity diagnostics复选框:给出一些用于共线性诊断的统计量,如特征根(Eigenvalues )方差膨胀因子(VIF)等。以上各项在默认情况下只有Estimates和Model fit复选框被选中。Plot钮】弹出Plot对话框,用于选择需要绘制的回归分析诊断或预测图。可绘制的有 标准化残差的直方图和正态分布图,应变量、预测值和各自变量残差间两两的散 点图等。【Save钮】许多时候我们需要将回归分析的结果存储起来,然后用得到的残差、预测值 等做进一步的分析,Save钮就是用来存储中间结果的。可以存储的有:预测值 系列、残差系列

8、、距离(Distances)系列、预测值可信区间系列、波动统计量 系列。下方的按钮可以让我们选择将这些新变量存储到一个新的SPSS数据文 件或XML中。Options 钮】设置回归分析的一些选项,有:o Stepping Method Criteria单选钮组:设置纳入和排除标准,可按P 值或F值来设置。o Include constant in equation复选框:用于决定是否在模型中包括常 数项,默认选中。o Missing Values单选钮组:用于选择对缺失值的处理方式,可以是 不分析任一选入的变量有缺失值的记录(Exclude cases listwise)而无论 该缺失变量最终

9、是否进入模型;不分析具体进入某变量时有缺失值的记录 (Exclude cases pairwise)将缺失值用该变量的均数代督Replace withmean)o输出结果解释根据题目的要求,我们只需要在Dependent框中选入spovl, Independent 框中选入fat即可,其他的选项一律不管。单击OK后,系统很快给出如下结果: RegressionVariables Eirtere(I.Remove(lbVariables VariablesModel Entered Removed Method1 侣尸.Entera. All requested variables entere

10、d.b. Dependent variable: SPVOL这里的表格是拟合过程中变量进入/退出模型的情况记录,由于我们只引入了一个自变量,所以只出现了一个模型1 (在多元回归中就会依次出现多个回归模 型),该模型中fat为进入的变量,没有移出的变量,具体的进入/退出方法为 enteroModel SunnnaiyAdjusted Std. Error ofModel R R Square R Square the Estimate1.573,.3.8如a. Predictors: (Constant), fat上表为所拟合模型的情况简报,显示在模型1中相关系数R为0.578,而决定系 数R2

11、为0.334,校正的决定系数为0.307oANOVAbModelSum ofSquaresdfMean SquareFSig.1Regression8.30618.30612.059,002aResidual16.53024.689Total24.83525a. Predictors: (Constant), fatb. Dependent variable: SPVOL这是所用模型的检验结果,可以看到这就是一个标准的方差分析表!有兴趣的读者可以自己用方差分析模型做一下,就会发现出了最左侧的一列名字不太一样 外,其他的各个参数值都是相同的。从上表可见所用的回归模型F值为12.059 , P值为

12、0.002,因此我们用的这个回归模型是有统计学意义的,可以继续看下面 系数分别检验的结果。暧 由于这里我们所用的回归模型只有一个自变量,因此模型的检验就等价与系 数的检验,在多元回归中这两者是不同的。Coefficients3ModelUnstandardizedCoefficientsStandardi zed Coefficien tstSig.BStd. ErrorBeta1(Constant)5.097.42711.923.000fat.700.202.5733.473.MWa. Dependent variable: SPVOL上表给出了包括常数项在内的所有系数的检验结果,用的是t检

13、验,同时还会给 出标化/未标化系数。可见常数项和fat都是有统计学意义的,上表的内容如果翻 译成中文则如下所示:未标准化系数标准化系数模型系数b系数标准误系数Bt值P值1常数5.0970.42711.9230.000fat0.7000.2020.5783.4730.002复杂实例操作分析实例例 10.2 :请分析在数据集 plastic.sav 中变量 extrusn、additive、gloss 和 opacity对变量tear_res的大小有无影响?已知extrusn对tear_res的大小有影响。显然,这里是一个多元回归,由于除了 extrusn确有影响以外,我们不知道 另三个变量有无影

14、响,因此这里我们将extrusn放在第一个block,进入方法为 enter(我们有把握extrusn 一定有统计学意义);另三个变量放在第二个block, 进入方法为stepwise (让软件自动选择判断),操作如下:1. Analyze=Regression=Liner2. Dependent 框:选入 tear_res3. Independent 框:选入 extrusn ;单击 next 钮4. Independent 框:选入 additive、gloss 和 opacity ; Method 列表框: 选择 stepwise5. 单击OK钮结果解释最终的结果如下:Regressio

15、nVariables Eirtered.Remow(lbModelVariablesEnteredVariablesRemovedMethod1Extrusion3Enter2AdditiveAmountStepwise (Criteria:Probability-ot-F-to-enter= .100). All requested variables entered.b. Dependent Variable: Tear Resistance上面的表格依次列出了模型的筛选过程,模型1用进入法引入了 extrusn , 然后模型2用stepwise法引入了 additive,另两个变量因没有

16、达到进入标准, 最终没有进入。上面的表格翻译出来如下:模型进入的变量移出的变量变量筛选方法1extrusn进入法2additivestepwise法(标准:进入概率小于0.05,移出概率大于0.1)Model SuniinaiyModel RR SquareAdjustedR SquareStd. Error of the Estimate1.6如日.408.375.3753.78的.586.538.3套日.Predictors: (Constant), Extrusionb. Predictors: (Constant), Extrusion, Additive Amount上表是两个模型变

17、异系数的改变情况,从调整的R2可见,从上到下随着新 变量的引入,模型可解释的变异占总变异的比例越来越大。ANOVACModelSum ofSquaresdfMean SquareFSig.1Regression1.74011.74012.400,002aResidual2.52513.140Total4.266192Regression2.50121.25012.043,001bResidual1.76517.104Total4.26619a. Predictors: (Constant), Extrusionb. Predictors: (Constant), Extrusion, Addi

18、tive Amountc. Dependent Variable: Tear Resistance上表是所用两个模型的检验结果,用的方法是方差分析,可见二个模型都有统计学意义。Coefficients3ModelUnstandardizedCoefficientsStandardizedCoefficientstSig.BStd. ErrorBeta1(Constant)5.900.26522.273.000Extrusion.590.167.6393.522.0022(Constant)5.315.31416.926.000Extrusion.590.144.6394.095.001Addi

19、tive Amount.390.144.4222.707.015a. Dependent Variable: Tear Resistance上表仍然为三个模型中各个系数的检验结果,用的是t检验,可见在模型2中所有的系数都有统计学意义,上表的内容翻译如下:未标化的系数标化的系数模型B标准误Betat值P值1(常数)5.900.26522.278.000extrusion.590.167.6393.522.0002(常数)5.315.31416.926.000extrusion.590.144.6394.905.000additive.390.144.4222.707.000Excluded Va

20、riables0ModelBeta IntSig.PartialCorrelationCollinearityStatisticsTolerance1Gloss,207a.936.338.233.744Opacity-.062a-.332744-.030.994Additive Amount,422a2.707.015.5491.0002Gloss.01 3b.062.952.015.624Opacity-.1S3b-1.142.270-.274.933a. Predictors in the Model:(Constant), Extrusionb. Predictors in the Mo

21、del:(Constant), Extrusion, Additive AmountC- Dependent Variable: Tear Resistance这是新出现的一个表格,反映的是没有进入模型的各个变量的检验结果,可 见在模型1中,未引入模型的候选变量additive还有统计学意义,可能需要引入, 而模型2中没有引入的两个变量其P值均大于0.05,无需再进行分析了。10.2 Curve Estimation 过程Curve Estimation过程可以用与拟合各种各样的曲线,原则上只要两个变量间存在某种可以被它所描述的数量关系,就可以用该过程来分析。但这里我们要 指出,由于曲线拟合非

22、常的复杂,而该模块的功能十分有限,因此最好采用将曲 线相关关系通过变量变换的方式转化为直线回归的形式来分析,或者采用其他专 用的模块分析。界面详解Curve Estimation过程中有特色的对话框界面内容如下:F面我们分别解释一下它们的具体功能。Dependent 框】用于选入曲线拟和中的应变量,可选入多个,如果这样,则对各个应变量分 别拟合模型。Independent单选框组】用于选入曲线拟和中的自变量,有两种选择,可以选入普通的自变量,也可 以选择时间作为自变量,如果这样做,则所用的数据应为时间序列数据格式。Models复选框组】是该对话框的重点,用于选择所用的曲线模型,可用的有:. L

23、inear :拟合直线方程,实际上与Linear过程的二元直线回归相同; Quadratic :拟合二次方程 Y = b0+b1X+b2X2 ;. Compound :拟合复合曲线模型Y = bOxbIX; Growth :拟合等比级数曲线模型Y = e(b0+b1X); Logarithmic :拟合对数方程 Y = b0+b1lnX ; Cubic :拟合三次方程 Y = b0+b1X+b2X2+b3X3 ; S :拟合 S 形曲线 Y = e(b0+b1/X);. Exponential :拟合指数方程 Y = b0 eb1X ; Inverse :数据按Y = b0+b1/X进行变换;

24、 Power :拟合乘幂曲线模型Y = b0X bl ;. Logistic :拟合 Logistic 曲线模型 Y = 1/ (1/u + b0xb1X),如选择该线 型则要求输入上界。暧上面的几种线型和其他的模块有重复,如Logistic、Liner等,由于本模块的功能有限,在重复的情况下建议用其它专用模块来分析。Include constant in equation 复选框】确定是否在方程中包含常数项。Plot models复选框】要求对模型做图,包括原始数值的连线图和拟合模型的曲线图。save钮】弹出SAVE对话框,用于定义想要存储的中间结果,如预测值、预测值可信 区间、残差等。Di

25、splay ANOVA table 复选框】要求显示模型检验的方差分析表。实例操作例10.3 :锡克试验阴性率()随着年龄的增长而增高,某地查得儿童年龄 (岁)X与锡克试验阴性率Y的资料如下,试拟合曲线。年龄(岁)1234567锡克试验阴性率(%)57.1 76.0 90.9 93.0 96.7 95.6 96.2首先对年龄和阴性率作散点图,发现两者有斜率逐渐放缓的曲线趋势,因此 选择二次曲线模型、三次曲线模型和对数曲线模型,最终取其中结果最优者,做 法如下:1. Analyze=Regression=Curve estimation2. Dependant框:选入阴性率3. Independ

26、ant框:选入年龄4. Models 复选框组:选择 Quadratic、Curbe、Logarithmatic,取消对 Liner的选择。5. 单击OK结果如下:Curve FitMODEL:MOD_11.Independent:年龄DependentMthRsq d.f. FSigf b0b1b2b3阴性率LOG.913552.32.001 61.3259 20.6704阴性率QUA.970 465.20.001 39.2714 21.8250 -2.0036阴性率CUB.994 3165.37.001 25.5714 37.4278 -6.5702 .3806上表给出了所拟合的三个模型的

27、检验报告,包括拟合优度、模型的检验结果 和各个系数值,从检验结果看,三个模型均有统计学意义,但从拟合优度看,三 次方曲线的拟合优度最高,似乎应选择三次方曲线,但注意三次方曲线多一个参数,要复杂一些,而它的拟合优度和二次方曲线相差不大,因此仅从这里的结果 还不好对它们两者作出判断,下面我们还要看看模型曲线的情况。阴性率年龄上图是三个模型曲线和实际值连线的情况,可见在4岁以前,二次方和三次 方曲线对模型的拟合相差不大,4岁以后三次方曲线则要明显优于二次方曲线, 但我们的观察值只有7例,样本量太少,在曲线回归中,模型的简洁性和拟合优 度的高低同样重要,拟合优度太高的模型往往对新样本的拟合度较差,我认为在 这种情况下选择参数较少的模型为宜,因此最终选择二次方曲线模型。心其实这里由于观察样本太少,无论选择哪种模型影响都不大,而且各人的意 见不会相同,往往是有多少条曲线,就会有多少种意见,最后还是要结合专业知 识来决定,我这样写只是让大家明白,曲线拟和是非常复杂的问题,千万不能轻 易下结论。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!