Logistic回归的实际应用

上传人:积*** 文档编号:124089301 上传时间:2022-07-24 格式:DOC 页数:11 大小:162KB
收藏 版权申诉 举报 下载
Logistic回归的实际应用_第1页
第1页 / 共11页
Logistic回归的实际应用_第2页
第2页 / 共11页
Logistic回归的实际应用_第3页
第3页 / 共11页
资源描述:

《Logistic回归的实际应用》由会员分享,可在线阅读,更多相关《Logistic回归的实际应用(11页珍藏版)》请在装配图网上搜索。

1、 Logistic回归的简介与实际应用 摘要本文通过对logistic回归的简介,对logistic回归模型建立的分析,以及其在实际生活中的运用,我们可以得出所建立的模型对实际例子的数据拟合成果不错。核心词:logistic回归;模型建立;拟合;一、 logistic回归的简要简介 1、Logistic回归的应用范畴: 合用于流行病学资料的危险因素分析 实验室中药物的剂量-反映关系 临床实验评价 疾病的预后因素分析 2、Logistic回归的分类: 按因变量的资料类型分:二分类、多分类;其中二分较为常用 按研究措施分:条件Logistic回归、非条件Logistic回归两者针对的资料类型不同样

2、,后者针对成组研究,前者针对配对或配伍研究。 3、Logistic回归的应用条件是: 独立性。各观测对象间是互相独立的; Logit P与自变量是线性关系; 样本量。经验值是病例对照各50例以上或为自变量的5-10倍(以10倍为宜),但是随着记录技术和软件的发展,样本量较小或不能进行似然估计的状况下可采用精确logistic回归分析,此时规定分析变量不能太多,且变量分类不能太多; 当队列资料进行logistic回归分析时,观测时间应当相似,否则需考虑观测时间的影响(建议用Poisson回归)。 4、拟和logistic回归方程的环节: 对每一种变量进行量化,并进行单因素分析; 数据的离散化,对

3、于持续性变量在分析过程中常常需要进行离散变成级别资料。可采用的措施有根据经验进行离散,或是按照四分、五分位数法来拟定级别,也可采用聚类措施将计量资料聚为二类或多类,变为离散变量。 对性质相近的某些自变量进行部分多因素分析,并探讨各自变量(级别变量,数值变量)纳入模型时的合适尺度,及对自变量进行必要的变量变换; 在单变量分析和有关自变量分析的基本上,对P(常取0.2,0.15或0.3)的变量,以及专业上觉得重要的变量进行多因素的逐渐筛选;模型程序每拟合一种模型将给出多种指标值,供顾客判断模型优劣和筛选变量。可以采用双向筛选技术:a进入变量的筛选用score记录量或G记录量或LRS(似然比记录量)

4、,顾客拟定P值临界值如:0.05、0.1或0.2,选择记录量明显且最大的变量进入模型;b剔除变量的选择用Z记录量(Wald记录量),顾客拟定其P值明显性水平,当变量不显者,从模型中予以剔除。这样,选入和剔除反复循环,直至无变量选入,也无变量删除为止,选入或剔除的明显界值的拟定要依具体的问题和变量的多寡而定,一般地,当纳入模型的变量偏多,可提高选入界值或减少剔除原则,反之,则减少选入界值、提高删除原则。但筛选原则的不同会影响分析成果,这在与她人成果比较时应当注意。 在多因素筛选模型的基本上,考虑有无必要纳入变量的交互作用项;两变量间的交互作用为一级交互作用,可推广到二级或多级交互作用,但在实际应

5、用中,各变量最佳互相独立(也是模型自身的规定),不必研究交互作用,最多是研究少量的一级交互作用。 对专业上觉得重要但未选入回归方程的要查明因素。 5、回归方程拟合优劣的判断(为线性回归方程判断根据,可用于logistic回归分析) 决定系数(R2)和校正决定系数(),可以用来评价回归方程的优劣。R2随着自变量个数的增长而增长,因此需要校正;校正决定系数()越大,方程越优。但亦有研究指出R2是多元线性回归中常常用到的一种指标,表达的是因变量的变动中由模型中自变量所解释的比例,并不波及预测值与观测值之间差别的问题,因此在logistic回归中不适合。Cp选择法:选择Cp最接近p或p1的方程(不同窗

6、者解释不同)。Cp无法用SPSS直接计算,也许需要手工。1964年CL Mallows提出: Cp接近(p+1)的模型为最佳,其中p为方程中自变量的个数,m为自变量总个数。AIC准则:1973年由日本学者赤池提出AIC计算准则,AIC越小拟合的方程越好。在logistic回归中,评价模型拟合优度的指标重要有Pearson2、偏差(deviance)、Hosmer- Lemeshow (HL)指标、Akaike信息准则(AIC)、SC指标等。Pearson2、偏差(deviance)重要用于自变量不多且为分类变量的状况,当自变量增多且具有持续型变量时,用HL指标则更为恰当。Pearson2、偏差

7、(deviance)、Hosmer- Lemeshow (HL)指标值均服从2分布,2检查无记录学意义(P0.05)表达模型拟合的较好,2检查有记录学意义(P0.05)则表达模型拟合的较差。AIC和SC指标还可用于比较模型的优劣,当拟合多种模型时,可以将不同模型按其AIC和SC指标值排序,AIC和SC值较小者一般觉得拟合得更好。 6、拟合方程的注意事项:进行方程拟合对自变量筛选采用逐渐选择法迈进法(forward)、后退法(backward)、逐渐回归法(step wise)时,引入变量的检查水准要不不小于或等于剔除变量的检查水准;小样本检查水准定为0.10或0.15,大样本把定为0.05。值

8、越故事明自变量选用的原则越严;在逐渐回归的时可根据需要放宽或限制进入方程的原则,或硬性将最感爱好的研究变量选入方程;强影响点记录的选择:从理论上讲,每一种样本点对回归模型的影响应当是同等的,实际并非如此。有些样本点(记录)对回归模型影响很大。对由过错或错误导致的点应删去,没有错误的强影响点也许和自变量与应变量的有关有关,不可容易删除。多重共线性的诊断(SPSS中的指标):a容许度:越近似于0,共线性越强;b特性根:越近似于0,共线性越强;c条件指数:越大,共线性越强;异常点的检查:重要涉及特异点(outher)、高杠杆点(high leverage points)以及强影响点(influent

9、ial points)。特异点是指残差较其她各点大得多的点;高杠杆点是指距离其她样品较远的点;强影响点是指对模型有较大影响的点,模型中涉及该点与不涉及该点会使求得的回归系数相差很大。单独的特异点或高杠杆点不一定会影响回归系数的估计,但如果既是特异点又是高杠杆点则很也许是一种影响回归方程的“有害”点。对特异点、高杠杆点、强影响点诊断的指标有Pearson残差、Deviance残差、杠杆度记录量H(hat matrix diagnosis)、Cook距离、DFBETA、Score检查记录量等。这五个指标中,Pearson残差、Deviance残差可用来检查特异点,如果某观测值的残差值2,则可觉得是

10、一种特异点。杠杆度记录量H可用来发现高杠杆点,H值大的样品阐明距离其她样品较远,可觉得是一种高杠杆点。Cook距离、DFBETA指标可用来度量特异点或高杠杆点对回归模型的影响限度。Cook距离是原则化残差和杠杆度两者的合成指标,其值越大,表白所相应的观测值的影响越大。DFBETA指标值反映了某个样品被删除后logistic回归系数的变化,变化越大(即DFBETA指标值越大),表白该观测值的影响越大。如果模型中检查出有特异点、高杠杆点或强影响点,一方面应根据专业知识、数据收集的状况,分析其产生因素后酌情解决。如来自测量或记录错误,应剔除或校正,否则处置就必须持谨慎态度,考虑与否采用新的模型,而不

11、能只是简朴地删除就算完事。由于在许多场合,异常点的浮现正好是我们探测某些事先不清晰的或许更为重要因素的线索。7、 回归系数符号反常与重要变量选不进方程的因素: 存在多元共线性; 有重要影响的因素未涉及在内; 某些变量个体间的差别很大; 样本内突出点上数据误差大; 变量的变化范畴较小; 样本数太少。8、参数意义Logistic回归中的常数项(b0)表达,在不接触任何潜在危险保护因素条件下,效应指标发生与不发生事件的概率之比的对数值。Logistic回归中的回归系数(bi)表达,其他所有自变量固定不变,某一因素变化一种单位时,效应指标发生与不发生事件的概率之比的对数变化值,即OR或RR的对数值。需

12、要指出的是,回归系数的大小并不反映变量对疾病发生的重要性,那么哪种因素对模型奉献最大即与疾病联系最强呢? (InL(t-1)-InL(t)三种措施成果基本一致。存在因素间交互作用时,Logistic回归系数的解释变得更为复杂,应特别小心。模型估计出OR,当发病率较低时,ORRR,因此发病率高的疾病资料不适合使用该模型。此外,Logistic模型不能运用随访研究中的时间信息,不考虑发病时间上的差别,因而只适于随访期较短的资料,否则随着随访期的延长,回归系数变得不稳定,原则误增长。9、记录软件可以进行logistic回归分析的软件非常多,常用的有SPSS、SAS、Stata、EGRET (Epid

13、emiological Graphics Estimation and Testing Package)等。二、logistic回归模型的建立 1、实际的例子:在一次住房展销会上,与房地产商签订初步购房意向书的共有n=313名顾客。在随后的3个月的时间内,只有部分顾客的确购买了房屋。购买房屋的顾客记为1,没有购买房屋的顾客记为0。以顾客的年家庭收入(万元)为自变量x,对表1中的数据建立Logistic回归模型。 序号年家庭收入(万元)x 签订意向书人数实际购房人数实际购房比例逻辑变换权重11.52580.30-0.753775.44022.532130.406250-0.379497.7193

14、3.558260.448276-0.2076414.34544.552220.423077-0.3101512.69255.543200.465116-0.1397610.69866.539220.5641030.2578299.59077.528160.5714290.2876826.85788.521120.5714290.2876825.14399.515100.6666670.6931473.333 表12、 模型的建立:Logistic回归方程:,i=1,2,.,c (1) (1)式中c为分组数据的组数。本例中,c=9。将以上回归方程做线性变换,令 (2)式(2)的变换称为逻辑变换,

15、变换后的线性回归模型为: (3)式(3)是一种一般的一元线性回归模型。式(3)没有给出误差项的形式,我们觉得其误差项的形式就是做线性变换所需要的形式。对表1中的数据,算出经验回归方程为:, (4)鉴别系数,明显性检查P值0,高度明显。将式(4)还原为式(1)的Logistic回归方程为: (5)三、运用模型进行预测运用式(5)可以对购房比例做预测,例如,则有=0.590。四、成果的实际意义这表白在住房展销会上与房地产商签订初步购房意向书的年收入8万元家庭中,估计实际购房比例为59%.或者说,一种签订初步购房意向书的年收入8万元的家庭,其购房概率为59%.五、模型的拟合效果分析我们用Logist

16、ic回归模型成功地拟合了因变量为定性变量的回归模型,但是仍然存在一种局限性之处,即异方差性并没有解决。式(3)的回归模型不是等方差的,应当对式(3),用加权最小二乘估计。当较大,的近似方差为: (6),其中,因而选用权数:,(7)对例题重新用加权最小二乘做估计。运用SPSS软件操作,点选分析回归线性回归,因变量:逻辑变换;自变量:年家庭收入;WLS权重:权重。得到成果如下:模型汇总b,c模型RR 方调节 R 方原则 估计的误差Durbin-Watson1.939a.881.8642.42822.059a. 预测变量: (常量), 逻辑变换。b. 因变量: 年家庭收入xc. 加权的最小二乘回归

17、- 按 权重w 进行加权Anovab,c模型平方和df均方FSig.1回归306.4861306.48651.982.000a残差41.27275.896总计347.7588a. 预测变量: (常量), 逻辑变换。b. 因变量: 年家庭收入xc. 加权的最小二乘回归 - 按 权重w 进行加权系数a模型非原则化系数原则系数tSig.B原则 误差试用版1(常量)-.886.102-8.653.000家庭年收入.156.017.9619.242.000a. 因变量: 逻辑变换系数a,b模型非原则化系数原则系数tSig.B原则 误差试用版1(常量)-.849.114-7.474.000家庭年收入.14

18、9.021.9397.210.000a. 因变量: 逻辑变换b. 加权的最小二乘回归 - 按 权重 进行加权用加权最小二乘法得到的Logistic回归方程为:,(8)运用(8)式可以对时的购房比例做预测,有:=0.585,因此,年收入8万元的家庭估计实际购房比例为58.5%,这个成果与未加权的成果很接近。 结束语 本文对Logistic回归的应用范畴和拟和logistic回归方程的环节进行了简要简介,以及对回归方程拟合优劣的判断,提及了某些拟合方程的注意事项;明确了参数意义;其实可以进行logistic回归分析的软件非常多,常用的有SPSS、SAS、Stata、EGRET (Epidemiological Graphics Estimation and Testing Package)等,本文中实际的例子运用了SPSS进行了分析,发现拟合效果还不错。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!