Logistic回归(1)学习教程

上传人:痛*** 文档编号:230735504 上传时间:2023-08-27 格式:PPTX 页数:36 大小:503.51KB
收藏 版权申诉 举报 下载
Logistic回归(1)学习教程_第1页
第1页 / 共36页
Logistic回归(1)学习教程_第2页
第2页 / 共36页
Logistic回归(1)学习教程_第3页
第3页 / 共36页
资源描述:

《Logistic回归(1)学习教程》由会员分享,可在线阅读,更多相关《Logistic回归(1)学习教程(36页珍藏版)》请在装配图网上搜索。

1、391讲述内容:第一节 logisticlogistic回归第二节 条件logisticlogistic回归第三节 logisticlogistic回归的应用 及其注意事项第1页/共36页392目的:目的:作出以多个自变量(危险因素)估计作出以多个自变量(危险因素)估计应变量(应变量(结果因素)结果因素)的的logistic回归方程。属于概率型非线性回归。回归方程。属于概率型非线性回归。资料:资料:1.应变量为反映某现象发生与不发生的二值变量;应变量为反映某现象发生与不发生的二值变量;2.自变量宜全部或大部自变量宜全部或大部分为分类变量,可有少数数值变量。分类变量要数量化。分为分类变量,可有少

2、数数值变量。分类变量要数量化。第2页/共36页393用途:用途:研究某种疾病或现象发生和多个危研究某种疾病或现象发生和多个危险因素(或保护因子)的数量关系。险因素(或保护因子)的数量关系。用用检验(或检验(或u检验)的检验)的局限性局限性:1.只能研究只能研究1个危险因素;个危险因素;2.只能得出定性结论。只能得出定性结论。第3页/共36页394种类种类:1.成组(非条件)成组(非条件)logistic回归方程。回归方程。2.配对(条件)配对(条件)logistic回归方程。回归方程。第4页/共36页395第一节第一节 logistic回归回归(非条件logistic回归)第5页/共36页6(

3、一)基本概念和原理 1.1.应用背景应用背景 LogisticLogistic回归模型是一种概率模型,适合于病例对照研究、随访研究和横断面研究,且结果发生的变量取值必须是二分的或多项分类。可用影响结果变量发生的因素为自变量与因变量,建立回归方程。第6页/共36页7 设资料中有一个因变量y、p个自变量x1,x2,xp,对每个实验对象共有n次观测结果,可将原始资料列成表2形式。2、LogisticLogistic回归模型的数据结构第7页/共36页8 表2 LogisticLogistic回归模型的数据结构实验对象 y X1 X2 X3 .XP 1 y1 a11 a12 a13 a1p 2 y2 a

4、21 a22 a23 a2p 3 y3 a31 a32 a33 a3p n yn an1 an2 an3 anp 其中:y取值是二值或多项分类第8页/共36页 表3 肺癌与危险因素的调查分析例号 是否患病 性别 吸烟 年龄 地区 1 1 1 0 30 0 2 1 0 1 46 1 3 0 0 0 35 1 30 0 0 0 26 1 注:是否患病中,0代表否,1代表是。性别中1代表男,0代表女,吸烟中1代表吸烟,0代表不吸烟。地区中,1代表农村,0代表城市。第9页/共36页10LogisticLogistic回归回归-Logistic-Logistic回归与回归与多重多重线性回归联系与区别线性

5、回归联系与区别联系联系:用于分析多个自变量与一个因变量的关系,目的是矫正混杂因素、筛选自变量用于分析多个自变量与一个因变量的关系,目的是矫正混杂因素、筛选自变量和更精确地对因变量作预测等。和更精确地对因变量作预测等。区别区别:线性模型中因变量为连续性随机变量,且要求呈正态分布线性模型中因变量为连续性随机变量,且要求呈正态分布.Logistic.Logistic回归因变回归因变量的取值仅有两个,不满足正态分布。量的取值仅有两个,不满足正态分布。第10页/共36页113 3、LogisticLogistic回归模型回归模型l 令令:y=1 发病(阳性、死亡、治愈等)发病(阳性、死亡、治愈等)l y

6、=0 未发病(阴性、生存、未治愈等)未发病(阴性、生存、未治愈等)l 将发病的概率记为将发病的概率记为P,它与自变量,它与自变量x x1 1,x x2 2,x,xp p之间的之间的Logistic回归模型为:回归模型为:l可知,不发病的概率为:可知,不发病的概率为:l 第11页/共36页经数学变换得:定义:为Logistic变换,即:第12页/共36页13 4、回归系数i的意义 流 行 病 学 的 常 用 指 标 优 势 比(odds ratio,OR)或称比数比,定义为:暴露人群发病优势与非暴露人群发病优势之比。即Xi的优势比为:第13页/共36页故对于样本资料OR=exp()95%置信区间

7、为:可见 是影响因素Xi增加一个单位所引起的对数优势的增量,反映了其对Y作用大小。如果要比较不同因素对Y作用大小,需要消除变量量纲的影响,为此计算标准化回归系数第14页/共36页二、Logistic回归的参数估计及意义 Logistic回归的参数估计及意义 P表示某个体发生某病的概率,自变量表示m个危险因素,式中的常数项表示在无各危险因素时的发病概率对不发病概率之比的自然对数,而logistic回归系数表示当危险因素每变化1个单位时(其它危险因素取值的变化量。通常用最大似然估计法求解模型中参数的估计值 似然函数第15页/共36页5.5.假设检验假设检验(1)回归方程的假设检验 H0:所有 H1

8、:某个 计算统计量为:G=-2lnL,服从自由度等于n-p的 分布 (2)回归系数的假设检验 H0:H1:计算统计量为:Wald,自由度等于1。第16页/共36页17具体方法是:先拟合不包含待检验因素的logistic模型,求对数似然函数值;再拟合包含待检验因素的logistic模型,求另一个对数似然函数值;比较两个对数似然函数值差别的大小第17页/共36页18第18页/共36页192.第19页/共36页203 score 检验检验 以未包含某个或几个变量的模型计算保留模型中参数的估计值,并假设新增参数为零,计算似然函数的一价偏导数及信息距阵,两者相乘便得比分检验的统计量S S。n n 较大时

9、,S S近似服从自由度为待检因素个数的 分布。第20页/共36页21以上三种方法中,在多数情况下,似然比检验是最有效的检验,score检验一般与它相一致。但两者计算量均较大;Wald检验主要用于对单个回归系数的检验,但是Wald检验未考虑各因素间的综合作用,比较保守,在因素间有共线性存在时,结果不像其它两者可靠。第21页/共36页、似然比检验检验统计量为 G服从2分布,自由度为增加变量的个数。、Wald检验 检验统计量为第22页/共36页Logistic回归分析一般过程回归分析一般过程变量的选择建立logistic回归模型时,要求进入模型的自变量应对反应变量有解释能力。通常研究者根据专业知识和

10、研究的问题,首先确定要研究的反应变量和自变量单因素分析(变量的粗略选择)用单因素分析对自变量进行筛选:卡方检验、t检验或单因素的logistic回归第23页/共36页24变量筛选变量筛选 第24页/共36页25解解 释释 设第i个因素的回归系数为bi,表示当有多个自变量存在时,其它自变量固定不变的情况下,自变量Xi每增加一个单位时,所得到的优势比的自然对数。也就是其它自变量固定不变的情况下,自变量Xi每增加一个单位时,影响因变量Y=0发生的倍数。当bi0时,对应的优势比(odds ratio,记为ORi):ORi=exp(bi)1,说明该因素是危险因素;当bi0时,对应的优势比ORi=exp(

11、bi)1,说明该因素是保护因素。第25页/共36页26二分类二分类LogisticLogistic回归回归 method method中文名称中文名称剔除依据剔除依据EnterEnter全部进入全部进入Forward:condiForward:conditionaltional向前逐步向前逐步条件参数估计似然比条件参数估计似然比Forward:LRForward:LR向前逐步向前逐步最大偏似然估计似然比最大偏似然估计似然比Forward:WaldForward:Wald向前逐步向前逐步WaldWald统计量统计量Backward:condBackward:conditionalitional向

12、后逐步向后逐步条件参数估计似然比条件参数估计似然比Backward:LRBackward:LR向后逐步向后逐步最大偏似然估计似然比最大偏似然估计似然比Backward:WaldBackward:Wald 向后逐步向后逐步WaldWald统计量统计量第26页/共36页27二分类二分类LogisticLogistic回归回归多重比较的方法多重比较的方法Indicator第一类或最后一类为参照类,每一类与第一类或最后一类为参照类,每一类与 参照类比较参照类比较Simple-除参照类外,每一类与参照类比较除参照类外,每一类与参照类比较Difference-除第一类外,每一类与其前各类的平均除第一类外,

13、每一类与其前各类的平均 效应比较,有称反效应比较,有称反HelmertHelmertHelmert-除最后一类外,每一类与其后各类的平均除最后一类外,每一类与其后各类的平均Repeated相邻两类比较,除第一类外,每类与其前相邻两类比较,除第一类外,每类与其前一一 比较比较Polynominal正交多名义分类比较,该法假设每一正交多名义分类比较,该法假设每一分类都分类都 有相等的空间,仅适于数值变量有相等的空间,仅适于数值变量Deviation除参照类外,每一类与总效应比较除参照类外,每一类与总效应比较第27页/共36页为了探讨糖尿病与血压、血脂等因素的关系,某研究者对56例糖尿病病人和65例

14、对照者进行病例-对照研究,收集了性别、年龄、学历、体重指数、家族史、吸烟、血压、总胆固醇、甘油三酯、高密度脂蛋白、低密度脂蛋白11个因素的资料。例 题第28页/共36页性别年龄学历体重指数家族史吸烟血压总胆固醇甘油三脂hdlldl糖尿病160221114.301.501.242.300148321114.601.321.152.300263211124.601.151.152.300168322114.151.431.073.210145212113.421.22.632.300145332114.16.96.982.650159211114.321.021.053.490168331113.

15、801.422.86.850263221113.871.552.44.810第29页/共36页表2 糖尿病影响因素赋值说明因素变量名赋值说明性别X1男=1,女=2年龄X2学历X3小学以下=1,小学=2,初中=3,高中=4,大专及以上=5体重指数X424=1,2426=2,26=3家族史X5无=1,有=2吸烟X6不吸=1,吸=2血压X7正常=1,高=2总胆固醇X8甘油三酯X9高密度脂蛋白X10低密度脂蛋白X11糖尿病Y对照=0,病例=1第30页/共36页建立数据库第31页/共36页单因素logistic回归(分别对性别、年龄、学历等做回归分析)第32页/共36页第33页/共36页例2为了不手术而

16、又能弄清前列腺癌患者淋巴结的转移情况,在手术前检查了53例前列腺癌患者,分别记录了年龄(age)、酸性磷酸酶(Acid)两个连续型的变量,X射线(X-Ray)、术前探针活检病理分级(Grade)、直肠指检肿瘤的大小与位置(Stage)三个分类变量。后三个变量均按0、1赋值,1表示阳性或较严重的情况,0表示阴性或较轻的情况。手术探查结果变量Nodes,1表示有淋巴结转移,0表示无淋巴结转移。试分析影响前列腺癌细胞淋巴结转移的因素,并建立淋巴结转移的预报模型。第34页/共36页Backward:wald筛选变量主要结果此表为进入方程的变量,包括回归系数此表为进入方程的变量,包括回归系数B,标准误,标准误S.E.,回归,回归系数检验统计量系数检验统计量wald值,自由度值,自由度d,概率值,概率值sig,回归系数,回归系数B的的反对数反对数(OR值)。重点是对最后选入变量的值)。重点是对最后选入变量的OR值的专业解释。值的专业解释。Logit(P)=-0.191+2.119X_RAY+1.588STAGE第35页/共36页36谢谢您的观看!第36页/共36页

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!