十六章节logistic回归分析LogisticRegression

上传人:痛*** 文档编号:171433757 上传时间:2022-11-26 格式:PPT 页数:40 大小:589.02KB
收藏 版权申诉 举报 下载
十六章节logistic回归分析LogisticRegression_第1页
第1页 / 共40页
十六章节logistic回归分析LogisticRegression_第2页
第2页 / 共40页
十六章节logistic回归分析LogisticRegression_第3页
第3页 / 共40页
资源描述:

《十六章节logistic回归分析LogisticRegression》由会员分享,可在线阅读,更多相关《十六章节logistic回归分析LogisticRegression(40页珍藏版)》请在装配图网上搜索。

1、391 第十六章第十六章 logistic回归分析回归分析 (Logistic Regression)392ContentnLogistic regression nConditional logistic regression nApplication 393讲述内容讲述内容:第一节第一节 logisticlogistic回归回归第二节第二节 条件条件logisticlogistic回归回归第三节第三节 logisticlogistic回归的应用回归的应用 及其注意事项及其注意事项394目的:目的:作出以多个自变量(危险因素)估计作出以多个自变量(危险因素)估计应变量(应变量(结果因素)结果

2、因素)的的logistic回归方程。回归方程。属于概率型非线性回归。属于概率型非线性回归。资料:资料:1.应变量为反映某现象发生与不发生的应变量为反映某现象发生与不发生的二值变量;二值变量;2.自变量宜全部或大部分为分类自变量宜全部或大部分为分类变量,可有少数数值变量。分类变量要数量变量,可有少数数值变量。分类变量要数量化。化。395用途:用途:研究某种疾病或现象发生和多个危研究某种疾病或现象发生和多个危 险因素(或保护因子)的数量关系。险因素(或保护因子)的数量关系。用用 检验(或检验(或u检验)的检验)的局限性局限性:1.只能研究只能研究1个危险因素;个危险因素;2.只能得出定性结论。只能

3、得出定性结论。2396 种类种类:1.成组(非条件)成组(非条件)logistic回归方程。回归方程。2.配对(条件)配对(条件)logistic回归方程。回归方程。397第一节第一节 logistic回归回归(非条件(非条件logistic回归回归)398 一、基本概念一、基本概念1 0 Y发生应变量未发生12,mXXX自变量,在m个自变量的作用下阳性结果发生的概率记作个自变量的作用下阳性结果发生的概率记作:),|1(21mXXXYPP1P039911ZPe若令若令:mmXXXZ2211001122ln=1mmPXXXP0112211 exp()mmPXXX回回归归模模型型其中0为常数项,m

4、,21为回归系数。概率概率P:01,logitP:。取值范围取值范围 logitP3910图图16-1 logistic函数的图形函数的图形00.51-4-3-2-10123410.5PZ:,0,:0,0.5,1PZ3911模模型型参参数数的的意意义义01122ln=logit1mmPXXXPP常数项常数项 表示暴露剂量为表示暴露剂量为0时个体发病时个体发病与不发病概率之比的自然对数。与不发病概率之比的自然对数。回归系数回归系数 表示自变量表示自变量 改变一个单位时改变一个单位时logitP 的改变量。的改变量。0),2,1(mjjjX3912流行病学衡量危险因素作用大小的流行病学衡量危险因素

5、作用大小的比数比例比数比例指标。指标。计算公式为:计算公式为:1100/(1)/(1)jPPORPP优势比优势比OR(odds ratio)3913111000010010/(1)lnlnlogitlogit/(1)()()()jmmjttjtttjtjjPPORPPPPcXcXcc对对比比某某一一危危险险因因素素两两个个不不同同暴暴露露水水平平1cXj与与0cXj的的发发病病情情况况(假假定定其其它它因因素素的的水水平平相相同同),其其优优势势比比的的自自然然对对数数为为:与与 logisticP 的关系的关系:39140,1 exp,0,1 0,1 jjjjjjOROROROR无作用危险因

6、保子护因子则有101 ,1,0 jccX暴非若暴露露由于jOR值与模型中的常数项0无关,0在危险因素分析中通常视其为无效参数。1100/(1)1,/(1)PPPORRRPP当则有10 exp()jjORcc即3915 11(1)iinYYiiiLPP 1lnln(1)ln(1)niiiiiLYPYP mbbbb,210 二、logistic回归模型的参数估计回归模型的参数估计 1.参数估计参数估计 原理:最大似然原理:最大似然(likelihood)估计估计 3916)(exp01ccbROjj若自变量jX只有暴露和非暴露两个水平,则优势比jOR的1可信区间估计公式为)exp(2/jbjSub

7、 2.优势比估计优势比估计 可反映某一因素两个不同水平(c1,c0)的优势比。3917例16-1 表16-1是一个研究吸烟、饮酒与食道癌关系的病例对照资料,试作logistic回归分析。121 0 1 0 1 0 XXY吸烟不吸烟饮酒不饮酒病例对照确确定定各各变变量量编编码码 3918分层 吸烟 饮酒 观察例数 阳性数 阴性数 g X1 X2 ng dg ng dg 1 0 0 199 63 136 2 0 1 170 63 107 3 1 0 101 44 57 4 1 1 416 265 151 表表16-1 吸烟与食道癌关系的病例对照调查资料吸烟与食道癌关系的病例对照调查资料 3919=

8、0.1572 吸烟与不吸烟的优势比:11expexp0.8856=2.42ORb 经logistic回归计算后得:0b=-0.9099,0bS=0.1358;1b=0.8856,1bS=0.1500;2b=0.5261,2bS=0.1572 吸 烟 与 不 吸 烟 的 优 势 比:1OR的 95可信区间:110.05/2expexp(0.88561.960.1500)(1.81,3.25)bbuS 饮酒与不饮酒的优势比:饮酒与不饮酒的优势比:饮酒与不饮酒的优势比:22expexp0.52611.69ORb 22exp(1.96)exp(0.5261 1.96 0.1572)(1.24,2.30

9、)bbS2OR的95可信区间:3920 三、三、logistic回归模型的假设检验回归模型的假设检验 Wald 检验 将各参数的估计值jb与 0 比较,而用它的标准误jbS作为参照,检验统计量为 2,1jjjjbbbbuSS2 或 221220111022120.8856 34.860.15000.5261 11.200 :0,:0,0.05,:0,:0,.157 0 05,2.HHHH 2值均大于 3.84,说明食道癌与吸烟、饮酒有关系,结论同前。2.1.似然比检验3921方法:方法:前进法、后退法和逐步法前进法、后退法和逐步法。检验统计量:检验统计量:不是不是 F 统计量,而是似然比统计量

10、、统计量,而是似然比统计量、Wald 统计量和计分统计量之一。统计量和计分统计量之一。四、变量筛选四、变量筛选例16-2 为了探讨冠心病发生的有关危险因素,对为了探讨冠心病发生的有关危险因素,对26例冠心病病人和例冠心病病人和28例对照者进行病例例对照者进行病例 对照研究,各对照研究,各因素的说明及资料见表因素的说明及资料见表16-2和表和表16-3。试用。试用logistic 逐逐步回归分析方法筛选危险因素。步回归分析方法筛选危险因素。)15.0,10.0(出入3922表表16-2 冠心病冠心病8个可能的危险因素与赋值个可能的危险因素与赋值3923序号 X1 X2 X3 X4 X5 X6 X

11、7 X8 Y 1 3 1 0 1 0 0 1 1 0 2 2 0 1 1 0 0 1 0 0 3 2 1 0 1 0 0 1 0 0 4 2 0 0 1 0 0 1 0 0 5 3 0 0 1 0 1 1 1 0 6 3 0 1 1 0 0 2 1 0 7 2 0 1 0 0 0 1 0 0 8 3 0 1 1 1 0 1 0 0 9 2 0 0 0 0 0 1 1 0 10 1 0 0 1 0 0 1 0 0.51 2 0 1 1 0 1 2 1 1 52 2 1 1 1 0 0 2 1 1 53 2 1 0 1 0 0 1 1 1 54 3 1 1 0 1 0 3 1 1 表表16-3 冠

12、心病危险因素的病例冠心病危险因素的病例 对照调查资料对照调查资料 3924 表表16-4 例例16-2进入方程中的自变量及有关参数的估计值进入方程中的自变量及有关参数的估计值 选入 变量 回归系 数 b 标准误 bS Wald 2 P 值 标准回归 系数 b OR 常数项-4.705 1.543 9.30 0.0023-X1 0.924 0.477 3.76 0.0525 0.401 2.52 X5 1.496 0.744 4.04 0.0443 0.406 4.46 X6 3.136 1.249 6.30 0.0121 0.703 23.00 X8 1.947 0.847 5.29 0.02

13、15 0.523 7.01 学会看结果!学会看结果!3925 最终进入 logistic 回归模型的危险因素有4 个,它们分别是年龄增高)(1X、高血脂史)(5X、动物脂肪摄入量)(6X和 A 型性格)(8X。标准回归系数3/jjjSbb可以用来比较各因素的相对重要性,jS为变量jX的标准差,=3.1416。3926配对资料。最常用的是每组中有一个病例和若干个对照,即 1:M 配对研究(一般)3M。一、原理 第二节 条件logistic回归 3927表表16-5 1:M 条件条件logistic回归数据的格式回归数据的格式*t=0 为病例,其他为对照 3928条件 logistic 模型011

14、2211 exp(.)iimmPXXX 1,2,iniP 表示第 i 层在一组危险因素作用下发病的概率,i0 表示各层的效应,m,21 为待估计的参数。与非条件 logistic 回归模型不同之处在常数项上,不同匹配组的i0可以各不相同,但内在假定了每个危险因素的致病能力在不同匹配组中相同。3929二、应用实例例16-3 某北方城市研究喉癌发病的危险因素,用1:2配对的病例对照研究方法进行了调查。现选取了6 个可能的危险因素并节录25对数据,各因素的赋值说明见表16-6,资料列于表16-7。试作条件logistic 逐步回归分析。表16-6 喉癌的危险因素与赋值说明 因素 变量名 赋值说明 咽

15、炎 X1 无=1,偶尔=2,经常=3 吸烟量(支/日)X2 0=1,14=2,59=3,1020=4,20=5 声嘶史 X3 无=1,偶尔=2,经常=3 摄食新鲜蔬菜 X4 少=1,经常=2,每天=3 摄食水果 X5 很少=1,少量=2,经常=3 癌症家族史 X6 无=0,有=1 是否患喉癌 Y 病例=1,对照=0 )15.0,10.0(出入3930表表16-7 喉癌喉癌1:2配对病例配对病例 对照调查资料整理表对照调查资料整理表 P344:3931表16-8 例16-3进入方程中的自变量及有关参数的估计值 选入的 4 个危险因素分别为吸烟量)(2X、有声嘶史)(3X、是否经常摄食新鲜蔬菜)(

16、4X及癌症家族史)(6X,其中摄食新鲜蔬菜为保护因素)0(4b。采用逐步法 6个危险因素 变量筛选 4个进方程,结果见表16-9。选选入入变变量量 回回归归系系数数 b 标标准准误误 Sb Wald2 RO P 值值 X2 1.4869 0.5506 7.29 4.42 0.0069 X3 1.9166 0.9444 4.12 6.80 0.0424 X4 3.7641 1.8251 4.25 0.02 0.0392 X6 3.6321 1.8657 3.79 37.79 0.0516 3932一、logistic回归的应用1流行病学危险因素分析 logistic回归分析的特点之一是参数意义清

17、楚,即得到某一因素的回归系数后,可以很快估计出这一因素在不同水平下的优势比或近似相对危险度,因此非常适合于流行病学研究。logistic回归既适合于队列研究(cohort study),也适合于病例-对照研究(case-control study),同样还可以用于断面研究(cross-sectional study)第三节 logistic回归的应用及其注意事项39332临床试验数据分析 临床试验的目的大多是为了评价某种药物或治疗方法的效果,如果有其他影响效果的非处理因素(如年龄、病情等)在试验组和对照组中分布不均衡,就有可能夸大或掩盖试验组的治疗效果。尽管在分组时要求按随机化原则分配,但由于

18、样本含量有限,非处理因素在试验组和对照组内的分布仍有可能不均衡,需要在分析阶段对构成混杂的非处理因素进行调整。当评价指标为二值变量时(如有效和无效),可以利用logistic回归分析得到调整后的药物评价结果。对于按分层设计的临床试验可以用相同的方法对分层因素进行调整和分析。39343分析药物或毒物的剂量反应 在一些药物或毒物效价的剂量-反应实验研究中,每一只动物药物耐受量可能有很大的不同,不同剂量使动物发生“阳性反应”的概率分布常呈正偏态,将剂量取对数后则概率分布接近正态分布。由于正态分布函数与logistic分布函数十分接近,如果用P表示在剂量为X时的阳性率,可用下述模型表示它们之间的关系)

19、ln(exp110XP用这一模型可以求出任一剂量的阳性反应率用这一模型可以求出任一剂量的阳性反应率传统的一些方法往往对实验设计有严格的要求,如剂量按等比级传统的一些方法往往对实验设计有严格的要求,如剂量按等比级数排列,各剂量组的例数必须相同等数排列,各剂量组的例数必须相同等,采用采用logistic回归的方法则回归的方法则没有这些限制。没有这些限制。39354预测与判别 logistic回归是一个概率型模型,因此可以利用它预测某事件发生的概率。例如在临床上可以根据患者的一些检查指标,判断患某种疾病的概率有多大。关于判别问题见第十八章。3936二、logistic回归应用的注意事项1变量的取值形

20、式(同15章)2样本含量 pn20(自变量个数)3模型评价 4多分类logistic 回归 对对模模型型中中自自变变量量对对回回归归方方程程拟拟合合优优度度检检验验3937目的:目的:作出以多个自变量(危险因素)估计应变量(结果作出以多个自变量(危险因素)估计应变量(结果因素)的因素)的logistic回归方程。属于概率型非线性回归。回归方程。属于概率型非线性回归。资料:资料:1.应变量为反映某现象发生与不发生的二值变量;应变量为反映某现象发生与不发生的二值变量;2.自变量宜全部或大部分为分类变量,可有少数数自变量宜全部或大部分为分类变量,可有少数数值值 变量。分类变量要数量化。变量。分类变量要数量化。用途:用途:研究某种疾病或现象发生和多个危险因素(或保护研究某种疾病或现象发生和多个危险因素(或保护因子)的数量关系。因子)的数量关系。种类种类:1.成组(非条件)成组(非条件)logistic回归方程。回归方程。2.配对(条件)配对(条件)logistic回归方程。回归方程。39383939P=0(在医院抢救成功)P=1(在医院抢救未成功而死亡)X1X2X3NX1X2X3N00035000400134001100101701040111901115100171006101610191106110611161116

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!