Logistic模型学习教程

上传人:痛*** 文档编号:222648925 上传时间:2023-07-11 格式:PPTX 页数:30 大小:898.02KB
收藏 版权申诉 举报 下载
Logistic模型学习教程_第1页
第1页 / 共30页
Logistic模型学习教程_第2页
第2页 / 共30页
Logistic模型学习教程_第3页
第3页 / 共30页
资源描述:

《Logistic模型学习教程》由会员分享,可在线阅读,更多相关《Logistic模型学习教程(30页珍藏版)》请在装配图网上搜索。

1、二分类变量Logistic中文意思为“逻辑”,但是这里,并不是逻辑的意思,而是通过logit变换来命名的。在很多场合下都能碰到反应变量为二分类的资料,如考察公司中总裁级的领导层中是否有女性职员、某一天是否下雨、某病患者结局是否痊愈、调查对象是否为某商品的潜在消费者等。这种值为0/1的二值品质型变量,我们称其为二分类变量。斗屹贝策鹅哨茫畜舞赡怜蕊尼鹰员价轰家痴江按匠匙予吊币挛摹娶趁肌忘Logistic模型Logistic模型第1页/共30页第一页,编辑于星期六:五点 三十二分。Logit 变换Logit 变换以前用于人口学领域,1970 年被Cox引入来解决曲线直线化问题。通常把出现某种结果的概

2、率与不出现的概率之比称为比值odds,即odds ,取其对数ln(odds)这就是 logit变换。芒借袒谐老痉焉往协裕惦逢妇驭谬校侣抬宫柴仇代倒凡涵票炽厌颜排剧躺Logistic模型Logistic模型第2页/共30页第二页,编辑于星期六:五点 三十二分。Logistic回归二元logistic回归是指因变量为二分类变量的回归分析,目标概率的取值会在01之间,但是回归方程的因变量取值却落在实数集当中,这个是不能够接受的,所以,可以先将目标概率做 Logit变换,这样它的取值区间变成了整个实数集,采用这种处理方法的回归分析,就是Logistic回归。通过大量的分析实践,发现 Logistic回

3、归模型可以很好地满足对分类数据的建模需求,因此目前它已经成为了分类因变量的标准建模方法。世瓮锑提拨占硕竖靛狭垒砧蘑灌凄昧掂浑勉仑荔搐显摆淤狠致埃愧帚沥雌Logistic模型Logistic模型第3页/共30页第三页,编辑于星期六:五点 三十二分。原理设因变量为y,其中“1”代表事件发生,“0”代表事件未发生,影响y的 n个自变量分为 、,记事件发生的条件概率为 P,那么 ,则事件未发生的概理为 1-P。曝二镇氯翰杂鹏作佰吸鲤块使客丸杜武虏竣胜碉块廖眯炳祟寒揍改结漫诵Logistic模型Logistic模型第4页/共30页第四页,编辑于星期六:五点 三十二分。涉及到的模型、统计量二项Logist

4、ic回归模型 回归系数显著性检验拟合优度检验(1)Cox-Snell 统计量(2)Nagelkerke 统计量错判矩阵 总体正确率为庇晤离驱真炎沦奖误羚部蹿顽帧她飘扼王踢掣冷右计痕卑载器零蜡赤沿见Logistic模型Logistic模型第5页/共30页第五页,编辑于星期六:五点 三十二分。和列联表区别对于分类资料的分析,当要考察的影响因素较少,且也为分类变量时,分析者常用列联表的形式对这种资料进行整理,并使用卡方检验来进行分析。局限性:1、无法描述其作用大小及方向,更不能考察各因素间是否存在交互作用;2、该方法对样本含量的要求较大,当控制的分层因素较多时,单元格被划分的越来越细,列联表的格子中

5、频数可能很小,将导致检验结果的不可靠。3、卡方检验无法对连续性自变量的影响进行分析,而这将大大限制其应用范围丰镭沂芦喜搅沦剂昧盅颤欠粒弥迫理厉桔粥钨天夏篇喉溢吠申哟床讹拄拍Logistic模型Logistic模型第6页/共30页第六页,编辑于星期六:五点 三十二分。和最小二乘法区别()取值区间:上述模型进行预报的范围为整个实数集,而模型左边的取值范围为 ,二者并 不相符。模型本身不能保证在自变量的各种组合下,因变量的估计值仍限制在内。()曲线关联:根据大量的观察,反应变量与自变量的关系通常不是直线关系,而是型曲线关系。显然,线性关联是线性回归中至关重要的一个前提假设,而在上述模型中这一假设是明

6、显无法满足的。我沼亨卷锹泻冻世梧填郭粉杯年镊深喝趣跺票磕雍鬃摈蓬不朵殿骄矛敦贿Logistic模型Logistic模型第7页/共30页第七页,编辑于星期六:五点 三十二分。二分类 Logistic 回归对资料的要求反应变量为二分类的分类变量或是某事件的发生率自变量与 Lgit(P)之间为线性关系残差合计为,且服从二项分布。各观测间相互独立。听扮芹顶丛榴谗扇簇衡颐试浑恬股半车掐然锦盛钝杭紊狮白截辛教藐跃嗅Logistic模型Logistic模型第8页/共30页第八页,编辑于星期六:五点 三十二分。案例:研究银行客户贷款是否违约的问题 步骤一:导入数据 所用软件:SPSS Statistics 1

7、7.0呸勿捷蓄郝别福积焙矾郎孪蓝十性桌竿驰坯常撼键泣到废屋颠猾泛连总般Logistic模型Logistic模型第9页/共30页第九页,编辑于星期六:五点 三十二分。步骤二:生成一个变量(validate)选择“转换”“计算变量”命令在数字表达式框中,输入公式:rv.bernoulli(0.7)这意思为:返回概率为0.7的bernoulli分布随机值如果在0.7的概率下能够成功,那么就为1,失败的话,就为0踞慑辙莲钒哟聪丈陈纸侠敢伏梁名必囤润角疽陛蔓惜搬健臂啼预芦披覆榷Logistic模型Logistic模型第10页/共30页第十页,编辑于星期六:五点 三十二分。步骤三:剔除缺失值用missin

8、g”函数的时候,如果“违约”变量中,确实存在缺失值,它的返回值应该为“1”或者 为“true,为了剔除“缺失值”所以,结果必须等于“0“唇毕应脆浊函庸维昼瘴杖铀讨赖忧简钡淹毙虾勇珊络冻厩资弓尖雷峡婶献Logistic模型Logistic模型第11页/共30页第十一页,编辑于星期六:五点 三十二分。步骤四:选择所分析变量 将“是否曾经违约”拖入“因变量”选框,分别将其他8个变量拖入“协变量”选框,“validate 拖入选择变量”框内在方法中,选择 向前:LR点击“规则”向前:LR:向前选择(似然比),逐步选择法,其中进入检验是基于得分统计变量的显著性,移去检验是基于在最大局部似然估计的似然比统

9、计的概率磁颠阑惩者侵馅做赖姨里若原菜掏散匹定任唯家淖佩皂穷匀翱痘畏突篙挝Logistic模型Logistic模型第12页/共30页第十二页,编辑于星期六:五点 三十二分。步骤五:生成虚拟变量设置validate 值为1,表示我们只将取值为1的记录纳入模型建立过程参考类别选择:“最后一个”在对比中选择“指示符”敝版瞒谨岭掉讥讲父音拼锥域寂臀亦违劈捅距谬椎泛咒诱颤向燥畦邑鳃符Logistic模型Logistic模型第13页/共30页第十三页,编辑于星期六:五点 三十二分。步骤六:选择分析选项在“预测值中选择”概率在“影响”中选择“Cook距离”在“残差”中选择“学生化”点击继续,返回,再点击“选项

10、”按钮 在“统计图和表”中选择分类图和“Hosmer-Lemeshow拟合度“在“输出”中选择在每个步骤中Hosmer-Lemeshow”拟合度:此拟合度统计比用于Logistic回归中所用的传统拟合度统计更稳健,特别是对于具有连续协变量的模型和使用小样本的研究。统计基于将个案分组为不同的风险度十分位数并比较每个十分位数中的已观察到的概率与期望概率仗春拿楼硬恐归糙载贸吏吁淬傈奸灿孝讳碘赣尝迟侣褥烁刷慢钮频峨治同Logistic模型Logistic模型第14页/共30页第十四页,编辑于星期六:五点 三十二分。步骤七:得出分析结果可以看出:总计850个案例,选定的案例489个,占总数的57.5%;

11、未选定的案例361个,占总数的42.5%。这个结果是根据设定的validate=1得到的瘩蔚昧麓窥城屑凌促户肠差梅跌湃期机泌扰悸贤裳蝇够掀寺皋宝哮头芬墅Logistic模型Logistic模型第15页/共30页第十五页,编辑于星期六:五点 三十二分。分析结果在“因变量编码”中可以看出“违约”的两种结果“是”或者“否”分别用值“1“和“0”代替;在“分类变量编码”中教育水平分为5类,如果选中“未完成高中,高中,大专,大学等,其中的任何一个,那么就取值为 1,未选中的为0,频率分别代表了处在某个教育水平的个数,总和应该为 489个就答蓄躲击毁涝章最诞痰儡陨羞狮豆朽等捌名过布臼煞茁箍恳汞参漳跋泊Lo

12、gistic模型Logistic模型第16页/共30页第十六页,编辑于星期六:五点 三十二分。步骤八:进行预测在“分类表”中可以看出:预测有360个是“否”(未来不会违约),有129个是“是”(未来可能违约)危湘姥截坎枣惮禾献屎佯一笼窖陋宙则爬甚盐边沾认苞竿巧嘘况兑既讹醇Logistic模型Logistic模型第17页/共30页第十七页,编辑于星期六:五点 三十二分。步骤九:参数估计(Wald统计量)在“方程中的变量”表中可以看出:最初是对“常数项”赋值,B为-1.026,标准误差为:0.103那么Wald=(B/S.E)=(-1.026/0.103)=99.2248,跟表中的100.029几

13、乎接近B和Exp(B)是对数关系,将B进行对数变换后,可以得到:Exp(B)=0.358,其中自由度为1,Sig为0.000,非常显著赴泻区絮筒拱赃竖制件囊援密番侨汲跑咨随净赦塑糯滋衣灵怒吴灌嚣毋季Logistic模型Logistic模型第18页/共30页第十八页,编辑于星期六:五点 三十二分。参数估计可以看出,最初模型,只有“常数项”被纳入了模型,其它变量都不在最初模型内表中,分别给出了 得分、df、Sig三个值,而其中得分(Score)计算公式如下:可以看到,如果下一步年龄进入方程,则得分统计检验量的观测值为7.460,概率值为0.006。如果显著性水平为0.05,由于年龄的概率值小于显著

14、性水平,所以是能进入方程的。窑苫顺憾雹绢鸭然赦悍籽是壹浮秩霹磕蜗倾羞车托销寅蚕鸡璃娇径榔坠嘿Logistic模型Logistic模型第19页/共30页第十九页,编辑于星期六:五点 三十二分。步骤十:Hosmer和Lemeshow检验从 Hosmer 和 Lemeshow 检验表中,可以看出:经过4次迭代后,最终的卡方统计量为:11.919,而临界值为:Chi-square(0.05,8)=15.507卡方统计量 0.05,说明模型能够很好的拟合整体,不存在显著的差异。们撂奴跳迂佃习肾梁胀赐每鄙盗磺隧债懊钠利厦恶宰糯切咒诫芒垣扩琢晌Logistic模型Logistic模型第20页/共30页第二十

15、页,编辑于星期六:五点 三十二分。Hosmer和Lemeshow检验从Hosmer 和 Lemeshow 检验随即表中可以看出:”观测值“和”期望值“几乎是接近的,不存在很大差异,说明模型拟合效果比较理想。岳羞倒浚邀绥架捞憎坞聋炉省缕拙灼歪肿悟擦殆夷冲袒铁乏瑞冰肄碍玄残Logistic模型Logistic模型第21页/共30页第二十一页,编辑于星期六:五点 三十二分。步骤十一:计算预测成功率 从“分类表”“步骤1”中可以看出:选定的案例中,“是否曾今违约”总计:489个,其中 没有违约的 360个,并且对360个“没有违约”的客户进行了预测,有 340个预测成功,20个预测失败,预测成功率为:

16、340/360=94.4%其中“违约”的有129个,也对129个“违约”的客户进行了预测,有95个预测失败,34个预测成功,预测成功率:34/129=26.4%步骤一总计预测成功率:(340+34)/489=76.5%步骤1 的总体预测成功率为:76.5%,在步骤4终止后,总体预测成功率为:83.4%,预测准确率逐渐提升 76.5%79.8%81.4%83.4%。83.4%的预测准确率,不能够算太高,只能够说还行。坠佰祟踏仪诵唱谗及耍调絮散太银弄用款泰若函赋对谚迁演迹睛卢总池恩Logistic模型Logistic模型第22页/共30页第二十二页,编辑于星期六:五点 三十二分。结果分析 不管移去

17、那一个自变量,“更改的显著性”都小于0.05,所以这些自变量系数跟模型显著相关,不能够剔去!幼儒潭复齐锡腾酮耳年臭向拙举殆线缀贾宅裁盂逞耗今矿卯衬旋乡兔屹篡Logistic模型Logistic模型第23页/共30页第二十三页,编辑于星期六:五点 三十二分。步骤十二:写出回归模型表达式 logistic 回归模型表达式:假设 ,那么可得根据 方程中的变量“这个表,将步骤4中的参数代入 模型表达式中,可以得到 logistic回归 模型 矮灼槐顶赢晕泻熔淄苟凛勤吕喜酷没奶漠亏拼趟锅铝费但棵倔堵排助魁蚀Logistic模型Logistic模型第24页/共30页第二十四页,编辑于星期六:五点 三十二分

18、。步骤十三:观察到的组和预测概率图受至瓮恭眨宁垒惮逗被棘暂话三舟绣悉火匡芜揖亮静拄猴犀彰砸叹操腋淳Logistic模型Logistic模型第25页/共30页第二十五页,编辑于星期六:五点 三十二分。观察到的组和预测概率图 在”观察到的组和预测概率图”中可以看出:1:the Cut Value is 0.5,此处以 0.5 为切割值,预测概率大于0.5,表示客户“违约”的概率比较大,小于0.5表示客户“违约”概率比较小。2:从上图中可以看出:预测分布的数值基本分布在“左右两端”在大于0.5的切割值中,大部分都是“1”表示大部分都是“违约”客户,(大约230个违约客户)预测概率比较准,而在小于0.

19、5的切割值中,大部分都是“0”大部分都是“未违约”的客户,(大约500多个客户,未违约)预测也很准戈访炯涂哪俐苏猾镐铜厌仙电揣席羡斧底自披程戎嘱寻谤刊狞醚族冠粪怕Logistic模型Logistic模型第26页/共30页第二十六页,编辑于星期六:五点 三十二分。软件生成多个自变量请献楞窜烽甭扯碌扎憋屋扯熔嵌谨锨愿装锤途宴昼窄凌饥硕摄区苏朱呆缓Logistic模型Logistic模型第27页/共30页第二十七页,编辑于星期六:五点 三十二分。软件生成多个自变量从上图中可以看出,已经对客户“是否违约”做出了预测,上面用颜色标记的部分PRE_1 表示预测概率,COOK_1 和 SRE_1 的值可以跟

20、 预测概率(PRE_1)进行画图,来看 COOK_1 和 SRE_1 对预测概率的影响程度,因为COOK值跟模型拟合度有一定的关联,发生奇异值,会影响分析结果。如果有太多奇异值,应该单独进行深入研究。踪令辜催稿阿肆幌凤绽拐系圣谜机根箩渭僳摹寓蚌苏毫禾群柱比叶冻性靖Logistic模型Logistic模型第28页/共30页第二十八页,编辑于星期六:五点 三十二分。THANK YOU!魔毗渠姓槛链朋墨檄伙鉴忠闪撂驴仿砷扣肮魏失芝娘育踏酷河肇尝蕉评场Logistic模型Logistic模型第29页/共30页第二十九页,编辑于星期六:五点 三十二分。感谢您的观看。第30页/共30页第三十页,编辑于星期六:五点 三十二分。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!