数据挖掘模型评价



《数据挖掘模型评价》由会员分享,可在线阅读,更多相关《数据挖掘模型评价(49页珍藏版)》请在装配图网上搜索。
1、按一下以編輯母片,第二層,第三層,第四層,第五層,*,Copyright 2003-12,SPSS Taiwan Corp.,按一下以編輯母片標題樣式,第17章 数据挖掘模型评价,数据挖掘原理与,SPSS Clementine,应用宝典,元昌安 主编,邓松李文敬刘海涛编著,电子工业出版社,Copyright 2003-12,SPSS Taiwan Corp.,2,Copyright 2003-12,SPSS Taiwan Corp.,17.1,基于损失函数的标准,混淆矩阵,准确率及误差的度量,两个评价模型成本的可视化工具,评,估分类器的准确率,17.2,基于统计检验的准则,统计模型之间的距离,
2、统计模型的离差,17.3,基于记分函数的标准,17.4,贝叶斯标准,17.5,计算标准,交叉验证标准,自展标准,遗传算法,17.6,小结,3,Copyright 2003-12,SPSS Taiwan Corp.,17.1,基于损失函数的标准,混淆矩阵,混淆矩阵(,confusion matrix,)用来作为分类规则特征的表示,它包括了每一类的样本个数,包括正确的和错误的分类。,主对角线给出了每一类正确分类的样本的个数,非对角线上的元素则表示未被正确分类的样本个数。,Copyright 2003-12,SPSS Taiwan Corp.,对于,m,类的分类问题,误差可能有,m2-m,。如果仅有
3、,2,类(正样本和负样本,用,T,和,F,或,1,和,0,来象征性地代表),就只有两类误差。,期望为,T,,但分类为,F,:称为假负。,期望为,F,,但分类为,T,:称为假正。,此外,期望为,T,,但分类为,T,:称为真正。,期望为,F,,但分类为,F,:称为真负。,Copyright 2003-12,SPSS Taiwan Corp.,我们可以把它们汇总在表,17-1,正、负样本的混淆矩阵中。,实际的类,预测的类,C1,C2,C1,真正,假负,C2,假正,真负,总计,真正,+,假正,假负,+,真负,表,17-1,正、负样本的混淆矩阵,Copyright 2003-12,SPSS Taiwan
4、 Corp.,当分类数,m,为,3,时,对角线给出正确的预测。,如表,17-23,个类的混淆矩阵所示。,在本例中,总共是,150,个检验样本。,有,6,类误差(,m,2,-m=3,2,-3=6,),在表中它们以粗体字表示。,可以看到,这个分类器对于属于,B,类的,46,中的,38,个样本给出了正确的分类;,8,个样本给出了错误的分类,其中,2,个分到了,A,类,,6,个分到了,C,类。,实际的类,预测的类,A,类,B,类,C,类,总计,A,类,45,2,3,50,B,类,10,38,2,50,C,类,4,6,40,50,总计,59,46,45,150,表,17-2 3,个类的混淆矩阵,Copy
5、right 2003-12,SPSS Taiwan Corp.,17.1.2,准确率及误差的度量,为了度量分类器的预测精度,如果明确或隐含地假设每个被错分的数据会产生相同的成本,我们引入误差率和准确率这两个参数作为它的一个性能度量来对其进行评估。,误差率,R,是误差数目,E,和检验集中的样本数,S,的比值:,(,17-1,),分类器的准确率,A,是检验集中正确分类数和检验集中样本数,S,的比值,它的计算是:,(,17-2,),Copyright 2003-12,SPSS Taiwan Corp.,到目前为止,我们所假设的是每个误差同等成本,如果对于不同的错误有不同的成本的话,即使一个模型有低的
6、准确率,它也比一个有高准确率但是成本高的模型更好。,例如,在表,17-23,个类的混淆矩阵中如果假定每一个正确分类的成本为,1000,元,关于,A,类分错的成本是,500,元,关于,B,类分错的成本是,1000,元,关于,C,类分错的成本是,2000,元,则通过矩阵计算模型成本为(,1231000,)(,5500,)(,121000,)(,102000,),=88500,元。,Copyright 2003-12,SPSS Taiwan Corp.,因此当不同类型的误差对应不同的权值时,我们要将每个误差乘以对应的权值因子,c,ij,如果混淆矩阵中的误差元素为,e,ij,,那么总成本函数,C,(替
7、代精度计算中的误差数)可以计算为:,(17-3),Copyright 2003-12,SPSS Taiwan Corp.,要描述模型的质量,必须有更加复杂和全局性的度量。,为此我们引入,5,个参数:敏感性(,sensitivity,),特异性(,specificity,),精度(,precision,),错误正例(,false positives,),错误负例(,false negatives,)。,敏感性(,sensitivity,),=,(,17-4,),特异性(,specificity,),=,(,17-5,),Copyright 2003-12,SPSS Taiwan Corp.,以上
8、两个参数分别评估分类器识别正样本的情况和识别负样本的情况。,精度(,precision,),=(17-6),错误正例(,false positives,),=1-,(,17-7,),错误负例(,false negatives,),=1-,(,17-8,),Copyright 2003-12,SPSS Taiwan Corp.,其中,,t_pos,是真正的样本个数,,pos,是正样本数,,t_neg,是真负的样本个数,,neg,是负样本的个数,,f_pos,是假正的样本个数。,最终准确率为:,A=+,(,17-9,),Copyright 2003-12,SPSS Taiwan Corp.,例,1
9、7-1,基于表,17-1,正、负样本的混淆矩阵。事件,(Event),这个术语代表二值响应变量的值,Y,,,Event(1),表示成功,,Event(0),表示失败。可以把一个检验数据集中的样本数据分为可能的,4,类,如表,17-3,事件(,Event,)的混淆矩阵,:,预,测,值,实,际,值,Event(1),Event(0),总计,Event(1),a,b,a+b,Event(0),c,d,c+d,总计,a+c,b+d,a+b+c+d,表,17-3,事件(,Event,)的混淆矩阵,Copyright 2003-12,SPSS Taiwan Corp.,该模型的敏感性(,sensitivi
10、ty,),特异性(,specificity,),精度(,precision,),错误正例(,false positives,),错误负例(,false negatives,),5,个参数分别为:,敏感性(,sensitivity,),=,特异性(,specificity,),=,精度(,precision,),=,错误正例(,false positives,),=,错误负例(,false negatives,),=,Copyright 2003-12,SPSS Taiwan Corp.,介绍,lift,图和,ROC,曲线,这两个图都可以用来评价模型成本。它们都是关于二值响应变量的,而二值响应变
11、量是评价方法发展最快的领域。,17.1.3.1 lift,图,lift,图把验证数据集中的观测数据根据它们的分数以升序或降序排列,分数是基于训练数据集估计的响应事件,(,成功,),的概率。把这些分数再细分成,10,分位点,然后对验证数据集中的每个,10,分位点计算和图示成功的预测概率。如果这些成功的预测概率与估计概率具有相同的顺序(升序或降序),那么模型就是有效的。,17.1.3,两个评价模型成本的可视化工具,图,17-1lift,图示例比较了两个分类模型的,lift,图,Copyright 2003-12,SPSS Taiwan Corp.,图中可看出分数以降序排列,所以曲线减少越多表明模型
12、越好。因此模型,classification tree,看起来比另一个更好,特别是在第,3,个,10,分位点,它具有较好的成功率。,用每个曲线的值除以基本线,可得到性能的相对指标,称为,lift,,它测量一个模型的价值。,对于模型,classification tree,,在第,3,个,10,分位点的,lift,值为,2.77(,即,2.27,/1.0,),,这意味着使用模型,classification tree,的成功率是随机选择(基本线)的,3,倍。,Copyright 2003-12,SPSS Taiwan Corp.,17.1.3.2 ROC,曲线,ROC,曲线显示了给定模型的真正率
13、即敏感性与假正率(错误正例)之间的比较评定。也就是说,给定一个二类问题,我们可以对检验集的不同部分,显示模型可以正确识别正样本的比例与模型将负样本错误标识为正样本的比例之间的比较评定。敏感性的增加以错误正例的增加为代价。,Copyright 2003-12,SPSS Taiwan Corp.,ROC,曲线的画出以错误正例为水平抽,以敏感性为垂直轴,截止点是任意特定点。在模型比较方面,理想的曲线是和垂直轴一致的曲线。所以最佳曲线是最靠左边的曲线。,图,17-2 3,个分类模型的,ROC,曲线给出了对,3,个分类模型的,ROC,曲线,它说明最佳模型是,reg2,。不过三个模型实际上是相似的。,图,
14、17-2,:,3,个分类模型的,ROC,曲线,Copyright 2003-12,SPSS Taiwan Corp.,通常把数据集分为训练集和检验集,在训练集上建立模型,然后在检验集上评估其质量。,怎样将可用样本分为训练样本和检验样本呢?,这里我们将讨论将较小数据集划分为训练样本集和检验样本集的不同技术,这种技术通常叫做再取样方法。,17.1.4.1,再替换方法,所有可用的数据集都既用于训练集也用于检验集。换句话说,训练集和检验集是相同的,17.1.4,评估分类器的准确率,Copyright 2003-12,SPSS Taiwan Corp.,保持方法和随机子抽样,保持(,holdout,)方
15、法是我们目前为止讨论准确率时默认的方法(见图,17-3,用保持方法估计准确率)。在这种方法中,给定数据随机地划分到两个独立的集合,:,训练集和检验集。通常,三分之二的数据分配到训练集,其余三分之一分配到检验集。使用训练集导出模型,其准确率用检验集估计。,随机子抽样,(random subsampling),是保持方法的一种变形,它随机地选择训练集和检验集,将保持方法重复,k,次。总准确率估计取每次迭代准确率的平均值。,图,17-3,:用保持方法估计准确率图,Copyright 2003-12,SPSS Taiwan Corp.,17.1.4.3,交叉确认,在,k,折交叉确认(,k-fold c
16、ross-validation,)中,初始数据随机划分成,k,个互不相交的子集或“折”,D1,,,D2,,,Dk,,每个折的大小大致相等。训练和检验进行,k,次。在第,i,次迭代,划分,Di,用作检验集,其余的划分一起用来训练模型。即在第一次迭代子集,D2,,,Dk,一起作为训练集,得到第一个模型,并在,D1,上检验;如此下去。与上面的保持和随机子抽样方法不同,这里每个样本用于训练的次数相同,并且用于检验一次。对于分类,准确率估计是,k,次迭代正确分类的总数除以初始数据中的样本总数。,留一(,leave-one-out,)是,k,折交叉确认的特殊情况,其中,k,设置为初始样本数。用,k-1,个样本作为训练集,每次只给检验集“留出”一个样本,由此设计一个模型。从,k,个样本中选,k-1,个样本有,k,中选择,所以可用不同的大小为,k-1,训练样本重复进行,k,次。由于要设计,k,个不同的模型并对其进行比较,这种方法计算量很大。,Copyright 2003-12,SPSS Taiwan Corp.,17.1.4.4,自助法,自助法(,bootstrap method,)从给定训练样本中有
- 温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。