数据挖掘模型评估PPT课件

上传人:可**** 文档编号:77304607 上传时间:2022-04-19 格式:PPTX 页数:42 大小:433.77KB
收藏 版权申诉 举报 下载
数据挖掘模型评估PPT课件_第1页
第1页 / 共42页
数据挖掘模型评估PPT课件_第2页
第2页 / 共42页
数据挖掘模型评估PPT课件_第3页
第3页 / 共42页
资源描述:

《数据挖掘模型评估PPT课件》由会员分享,可在线阅读,更多相关《数据挖掘模型评估PPT课件(42页珍藏版)》请在装配图网上搜索。

1、一、评估分类法的准确率2022-4-191评估分类法准确率的技术有保持(holdout)和k-折交叉确认(k-fold cross-validation)方法。另外,还有两种提供分类法准确率的策略:装袋(bagging)和推进(boosting)。1、保持和k-折交叉在保持方法中,给定数据随机划分成两个独立的集合:训练集和测试集。通常,三分之二的数据分配到训练集,其余三分之一分配到训练集。第1页/共42页2022-4-192“保持”这种评估方法是保守的,因为只有一部分初始数据用于导出的分类法。随机子选样是“保持”方法的一种变形,它将“保持”方法重复k次。总体准确率估计取每次迭代准确率的平均值。

2、第2页/共42页K折交叉确认 在k折交叉确认(kfold crossvalidation)中,初试数据被划分成k个互不相交的子集或“折”,每个折的大小大致相等。训练和测试k次。在第i次迭代,第i折用作测试集,其余的子集都用于训练分类法。 准确率估计是k次迭代正确分类数除以初始数据中的样本总数。2022-4-193第3页/共42页2、提高分类法的准确率2022-4-194*1,2,.,ittttsSt tTSSSSSCXCCX给定样本 个样本的集合 ,装袋过程如下。对于迭代(),训练集 采用放回选样,由原始样本集选取。由于使用放回选样, 的某些样本可能不在 中,而其他的可能出现多次。由每个训练集

3、 学习,得到一个分类法 。为对一个未知的样本 分类,每个分类法返回他的类预测,算作一票。装 袋的分类法统计得票,并将得票最高的类赋予 。通过取得票的平均值,或者多数,装 袋也可以是连续值的预测。装袋第4页/共42页2022-4-195tC 在推进中,每个训练样本赋予一个权。学习得到一系列分类法。学习得到分类法后,对分类错误的样本更新权重,使得下一次迭代更关注这些样本。推进即使用相同的分类器,各个分类器不是独立的;使用同一个算法对样本迭代训练,后建立的分类器关注于先前建立的分类器不能更好处理的部分数据;最终的输出为各个分类器的加权投票。第5页/共42页3、灵敏性和特效性度量 假定你已经训练了一个

4、分类法,将医疗数据分类为“cancer”或“non_cancer”。90%的准确率使得该分类法看上去相当准确,但是如果实际只有34%的训练样本是“cancer”会怎么样? 显然,90%的准确率是不能接受的该分类法只能正确的标记“non_cancer”(称作负样本)样本。但我们希望评估该分类能够识别“cancer”(称作正样本)的情况。2022-4-196第6页/共42页 为此,除用准确率评价分类模型外,还需要使用灵敏性(sensitivity)和特效性(specificity)度量。 还可以使用精度(precision)来度量,即评估标记为“cancer”,实际是“cancer”的样本百分比。

5、2022-4-197第7页/共42页 其中,t_pos是真正样本(被正确地按此分类的“cancer”样本)数,pos是正(“cancer”)样本数, t_neg是真负样本(被正确地按此分类的“non_cancer”样本)数,neg是负( “non_cancer”)样本数, 而f_pos假正样本(被错误地标记为“cancer”的“non_cancer”样本)数2022-4-198_( _)tpospercisiontposfpos_tpossensitivitypos灵敏性特效性精度_tnegspecificityneg()()posnegaccuracysensitivityspecifici

6、typosnegposneg第8页/共42页2022-4-199预测值预测值1 1(实际(实际“cancercancer”)0 0(实际(实际no_cancerno_cancer)1(预测“cancer”)000(预测“no_cancer”)1090_0( _)90%()()tpospercisiontposfposposnegaccuracysensitivityspecificityposnegposneg_0100%tpostnegsensitivityspecificityposneg第9页/共42页二、数据挖掘模型评估的错误观念 传统评估分类预测模型时,通常使用的是“准确度”。它的功

7、能是评估模型分类实物是否正确。准确度越高模型就越好。 但事实上,这样评估出来的模型并不是最好的。2022-4-1910第10页/共42页例:某家银行发行现金卡,风险控管部门主管决定建立DM模型,利用申请人申请当时的所填的资料,建立违约预测模型,来作为核发现金卡以及给予额度的标准。 该银行邀请两家DM公司来设计模型,评比的标准是根据模型的“准确度”。 根据此标准,A公司所建模型的准确度92%,B公司的准确度是68%。 银行和A公司签约。2022-4-1911第11页/共42页 利用A公司的模型后,结果发现里面只有一条规则,那就是“所有的人都不会违约”。为什么? A:所有的人都不会违约,因此它错误

8、的只有8%的违约分类错误(违约误判为不违约),因此准确率是92%。 B:在根据评分由高至低筛选出来前40%的名单中,可以将所有的违约户都找出来。即有32%的非违约户被误判为违约户,因此准确率只有68%。哪一家的模型更好呢?由上可以发现,不能使用准确率来评判模型的优劣。2022-4-1912第12页/共42页为什么会出现这样的结果?原因在于两类错误,忽略了“错误不等价”。 如果把一个“会违约的人判断成不会违约”,这家银行损失2030万元的现金卡卡金,但是如果将一个“不会违约的人错判成违约”,只是划分了一些审查成本以及可能因为保守给予额度而造成的机会成本损失。 因此两种误判所造成的效益影响是不等价

9、的。2022-4-1913第13页/共42页 所谓小概率事件是发生概率小,而且一定是能够为企业界带来高度获利或严重损失的事件。 由于小概率事件发生概率很小,如果针对所有客户采取行动,就会形成浪费,因此,需要利用预测的技术将小概率事件找出来。那么,只针对预测的小概率事件采取行动就会避免浪费。 DM的价值就在于能够利用历史资料找出“小概率事件”。2022-4-1914小概率事件:第14页/共42页 因此,评估数据挖掘模型的第一步就必须从错误状态的分类入手。这需要建立分类矩阵,通过分类矩阵来查看所有错误的分布。2022-4-1915第15页/共42页H0 为真H0 为假真实情况所作判断接受H0拒绝H

10、0正确正确弃真错误 取伪错误两类错误犯第一类错误是弃真错误;犯第二类错误是取伪错误 。2022-4-1916三、分类矩阵第16页/共42页 对于DM来说,通常第二类错误的损失或收益要比第一类高。 因此,我们需要确定哪一个状况是我们所关心的小概率事件。 把对这个事件的误判会造成极大损失的情况,作为第二类错误。 例,把一个好账的人当作呆账是第一类错误,把一个呆账的人当作好账是第二类错误。2022-4-1917第17页/共42页预测值预测值1 1(实际(实际“会违约会违约”)0 0(实际(实际“不会违约不会违约”)1662801857212022-4-1918表中,预测为会违约且实际也会违约的有66

11、人,预测不会违约且实际没有违约的有721人,这些是分类正确者。表中,预测为会违约且实际没有违约的有28人,预测不会违约且实际违约的有185人,这些是预测模型判断错误的部分。其中,后者还会造成比较其中,后者还会造成比较严重的损失,是值得关注的部分。严重的损失,是值得关注的部分。第18页/共42页该如何使用分类矩阵的信息呢?2022-4-1919主要看三个指标,即回应率、反查率以及间距缩减。第19页/共42页 Response rate=预测会违约且实际会违约/所有预测会违约=66/(66+28)=70.21%预测模型回应率的高低须和总体回应率比较: 总体response rate=总体实际会违约

12、/总体=(66+185)/(66+185+28+721)=25.1%2022-4-1920预测值预测值1 1(实际(实际“会违约会违约”)0 0(实际(实际“不会违约不会违约”)166280185721回应率(response rate):在预测的名单中找出有多少小概率事件(在预测违约的名单中,真正违约的所占比例是多少)。第20页/共42页 可以发现,原始回应率为25.1%,运用数据挖掘模型提升为70.21%,因此回应率提升了2.8倍。 回应率讲究的是模型“宁缺勿滥”的能力。 回应率高并不代表一定是好模型,因为如果利用数据挖掘模型从一万人中挑出10个最有可能会买产品的顾客,结果回应率是100%

13、,但是却漏掉了大多数会买产品的顾客,因此,还得参考“反查率”这个指标。2022-4-1921第21页/共42页 Recall=预测会违约且实际违约/所有实际会违约=66/(66+185)=26.29% 它的意义在于:预测出来会违约的人占了总体会违约的客户多少百分比。反查率越高,表明犯第二类错误的可能性越小,那么模型越好。2022-4-1922预测值预测值1 1(实际(实际“会违约会违约”)0 0(实际(实际“不会违约不会违约”)166280185721反查(recall):预测出来的小概率事件占总体小概率事件的比例是多少。第22页/共42页 完美的预测模型反查率是100%,但是反查率与回应率是

14、互相矛盾的。 recall=67/(67+184)66/(66+185) Response rate=67/(67+38)66/(66+28)2022-4-1923预测值预测值1 1(实际(实际“会违约会违约”)0 0(实际(实际“不会违约不会违约”)167380184711预测值预测值1 1(实际值)(实际值)0 0(实际值)(实际值)166280185721第23页/共42页 Range reduce=预测会违约/总体=(66+28)/(66+28+721+185)=9.4% 间距缩减代表的是根据模型执行活动时的成本,当如果名单量没有有效缩减时,执行的总成本会很高,因此间距缩减越低越好。2

15、022-4-1924预测值预测值1 1(实际值)(实际值)0 0(实际值)(实际值)166280185721间距缩减(range reduce):通过DM模型来找出小概率事件时,名单缩小了多少。第24页/共42页 从上述三个指标来看,这个预测模型可以让名单缩减至原来的9.4%,但是却只包含了总体26.29%会违约的人(反查率),让回应率提升了原先的2.8倍。2022-4-1925第25页/共42页注意: 很少有模型同时能够满足上述三个指标的要求,当回应率很高时,一定是筛选高概率族群,因此名单间距缩减一定会变低,但是会遗漏掉低概率族群必定会造成反查降低,所以若只看分类矩阵,找不出最好的模型。 分

16、类矩阵是根据一个概率阀值将顾客分作两种情况,过度简化了实际的结果。因为所有的演算法除了预测结果之外,同时还会提供概率值作为排序的基准。2022-4-1926第26页/共42页四、增益图(灵敏性分析)2022-4-1927横轴百分比代表根据DM模型根据概率由高到低排序后的名单占总体百分比。纵轴则是在这批名单中小概率事件的人数占总体小概率事件人数的百分比。45度线表示随机的状态,代表当筛选一半的名单去检查违约状况时,刚好会包含全体名单一半的违约户数量。正常模型的增益图要比45度线向第二象限弯曲,越向上弯曲表示模型效果越好。理想模型线:在增益图的最上方两段直线所构成的,表示完美预测的结果。第27页/

17、共42页 AUC(area under curve):模型曲线下面的阴影面积与完美模型曲线下面阴影面积的比值。 AUC越接近于1,表示模型的预测能力越高。 吉尼系数=模型曲线与45度线之间的面积/完美模型曲线与45度线之间的面积 基尼系数? 吉尼系数越接近1,表示模型的预测能力越高。2022-4-1928第28页/共42页AUC与Gini系数对应的模型分辨能力AUCAUCGiniGini模型预测能力模型预测能力=50%0无预测能力50%-70%0-0.4极差70%-80%0.4-0.6可以接受80%-90%0.6-0.8非常良好90%-100%0.8-1过度完美2022-4-1929第29页/

18、共42页五、收益图从收益的角度来看,DM有两种类型: 回应模型(直效行销):预测的小概率事件能够为企业带来大量获利。 损失模型:预测的小概率事件为企业带来大量损失。2022-4-1930第30页/共42页 上述两个模型都没有包含整个公司的固定成本,不管成功案例多、少,都必须付出的成本。 收益图:首先在成本获利参数的输入对话框中,要输入:u总体(?)u固定成本(?)u单位成本(?)u每个收益(?):每个小概率事件发生时所得到的获利或是减少的损失。2022-4-1931第31页/共42页1、回应模型 假设电话销售每打一通电话所要付出的人事、设备折旧以及办公室设备相关成本总共是250元;而每成功销售

19、一通的话第一年可以为公司净赚1000元。 所以每打出去一通电话:u销售成功:1000250=收益750(即正确预测稀有事件)u销售失败:损失250元2022-4-1932第32页/共42页 直效行销设定:总体:50000;固定成本:200000;单位成本:250;每个收益:10002022-4-1933600000500000400000300000200000 0-10000015万535万假设行销活动针对全体客户进行,获利为-15万从图上看,在概率最高的前34%-39%之间名单进行行销,可以获利的最高点是535万元。横轴表示模型会根据行销成功概率由高至低将客户排序纵轴表示行销收益第33页/

20、共42页2、损失模型 下面来看信用评级的预测模型,预测的目标是违约客户,假设每个客户第一年带来的信用卡刷卡手续费以及利息收入为6000元,每个信用卡违约客户违约时金额为20000元。 所以每预测一个客户违约状态:违约户:损失为200006000=损失14000元正常户:获利6000元2022-4-1934第34页/共42页 信用评等模型设定:总体:50000;固定成本:200,000;单位成本:6,000;每个收益:20,0002022-4-1935600000500000400000300000200000 0-100000横轴表示模型会根据违约概率由高至低将客户排序本例最低点为35%,因此

21、,建议该银行针对违约概率最高的35%客户拒绝发给信用卡因为前半段都是高违约率客户,因此损失曲线是直线下降纵轴表示行销收益第35页/共42页六、散布图增益图和收益图都是用来评估类别变量预测问题的,如果遇到连续变量如何评估?此时需要散布图。如果预测的变量是连续型变量时,前面的分类矩阵、增益图和收益图都无法使用。此时,在SQL中 “增益图”会自动切换到“散布图”。2022-4-1936第36页/共42页体 重90807060504030身高1801701601502022-4-19376000005000004000003000002000001000000 0 100000 200000 3000

22、00 400000 500000 600000 横轴是实际数值纵轴是预测数值当模型越准确时,则代表预测值越接近实际值,也就是越接近45度线第37页/共42页七、注意(聚类和关联规则的评估) 以上介绍的均是分类模型的评估,对于聚类和关联规则并不适用。 聚类本身是无监督学习,并没有目标变量可以预测,只是从资料中找出潜在隐藏的相似性结构,因此聚类本身是一个诠释性的模型,而不具有预测力,所以无法判断准确率。 因此,聚类模型的好与坏就在于其质化的意义,即可诠释性的好与坏。2022-4-1938第38页/共42页 至于关联规则,通常来说关联规则也是无监督学习,因为它的项目(例如,产品组合)过多,因此,每个

23、选项本身就是小概率事件,所以不适合使用分类矩阵、增益图和收益图等工具来评估。 大多数情况下,通常建议大家使用SQL2005提供的置信度、支持度以及重要性这三个指标作为关联规则成效的综合评判。2022-4-1939第39页/共42页 这个公式表明,当“在B中发生A的概率”高于“在非B的状况下发生A的概率”时,该指标大于零,且此指标越大,表示A会造成B出现的概率显著提升。如果此值为负,则代表在A下越会抑制B的发生。在SQL2005中,当规则为正值时,重要性图示会是蓝色,如果负值时,重要性规则会是红色;规则重要性排序是根据重要性指标绝对值进行的。2022-4-1940tan()logBAimporce ABBA在 中发生 的概率在非 中发生 概率tan()loglog0imporce AB买茶又买咖啡的概率不买茶而买咖啡的概率3 413 16负关联规则第40页/共42页2022-4-1941第41页/共42页2022-4-1942感谢您的观看!第42页/共42页

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!