weka分类与回归

上传人:d**** 文档编号:158505586 上传时间:2022-10-05 格式:DOCX 页数:3 大小:14.32KB
收藏 版权申诉 举报 下载
weka分类与回归_第1页
第1页 / 共3页
weka分类与回归_第2页
第2页 / 共3页
weka分类与回归_第3页
第3页 / 共3页
资源描述:

《weka分类与回归》由会员分享,可在线阅读,更多相关《weka分类与回归(3页珍藏版)》请在装配图网上搜索。

1、weka 分类与回归1. 背景知识WEKA把分类(Classification)和回归(Regression)都放在“Classify选项卡中,这是有原因的。在这两个任务中,都有一个目标属性(输出变量)。我们希望根据一个样本(WEKA中称作实例)的一组特征 (输入变量),对目标进行预测。为了实现这一目的,我们需要有一个训练数据集,这个数据集中每个实 例的输入和输出都是已知的。观察训练集中的实例,可以建立起预测的模型。有了这个模型,我们就可以 新的输出未知的实例进行预测了。衡量模型的好坏就在于预测的准确程度。在WEKA中,待预测的目标(输出)被称作Class属性,这应该是来自分类任务的“类”。一

2、般的,若Class 属性是分类型时我们的任务才叫分类,Class属性是数值型时我们的任务叫回归。2. 选择算法这一节中,我们使用C4.5决策树算法对bank-data建立起分类模型。我们来看原来的“hank-datacsv”文件。“ID”属性肯定是不需要的。由于C4.5算法可以处理数值型的 属性,我们不用像前面用关联规则那样把每个变量都离散化成分类型。尽管如此,我们还是把Children” 属性转换成分类型的两个值“YES”和“NO”。另外,我们的训练集仅取原来数据集实例的一半;而从另外 一半中抽出若干条作为待预测的实例,它们的“pep”属性都设为缺失值。经过了这些处理的训练集数据在 这里下载

3、;待预测集数据在这里下载。我们用“Explorer”打开训练集“hank.arff”,观察一下它是不是按照前面的要求处理好了。切换到“C lassify”选项卡,点击“Choose”按钮后可以看到很多分类或者回归的算法分门别类的列在一个树型框里。 3.5版的WEKA中,树型框下方有一个“ Filter. ”按钮,点击可以根据数据集的特性过滤掉不合适的算 法。我们数据集的输入属性中有“Binary”型(即只有两个类的分类型)和数值型的属性,而Class变量 是“ Binary ”的;于是我们勾选 “Binary attributes “Numeric attributes ”和“ Binary

4、class”。点 “OK”后回到树形图,可以发现一些算法名称变红了,说明它们不能用。选择“trees”下的“J48”,这 就是我们需要的 C4.5 算法,还好它没有变红。点击“ Choose ”右边的文本框,弹出新窗口为该算法设置各种参数。点“ More ”查看参数说明,点“ Capa bilities ”是查看算法适用范围。这里我们把参数保持默认。现在来看左中的“Test Option。我们没有专门设置检验数据集,为了保证生成的模型的准确性而不至于 出现过拟合(overfitting)的现象,我们有必要采用10折交叉验证(10-fold cross validation)来选 择和评估模型。

5、若不明白交叉验证的含义可以Google 一下。3. 建模结果OK,选上“Cross-validation”并在“Folds”框填上“10”。点“Start按钮开始让算法生成决策树模 型。很快,用文本表示的一棵决策树,以及对这个决策树的误差分析等等结果出现在右边的Classifier output ”中。同时左下的“ Results list ”出现了一个项目显示刚才的时间和算法名称。如果换一个模型 或者换个参数,重新“Start 一次,则“Results list”又会多出一项。我们看到“ J48 ”算法交叉验证的结果之一为Correctly Classified Instances 206

6、68.6667 % 也就是说这个模型的准确度只有69%左右。也许我们需要对原属性进行处理,或者修改算法的参数来提高 准确度。但这里我们不管它,继续用这个模型。右键点击“Results list刚才出现的那一项,弹出菜单中选择“Visualize tree,新窗口里可以看到 图形模式的决策树。建议把这个新窗口最大化,然后点右键,选“Fit to screen”,可以把这个树看清楚些。看完后截图或者关掉 500)this.width=500 border=0这里我们解释一下“ Confusion Matrix ”的含义。= Confusion Matrix =a b - classified as

7、74 64 | a = YES30 132 | b = NO这个矩阵是说,原本“pep”是“YES”的实例,有74个被正确的预测为“YES”,有64个错误的预测成了 “NO” ;原本“pep”是“NO”的实例,有30个被错误的预测为“YES”,有132个正确的预测成了 “NO”。74+64+30+132 = 300是实例总数,而(74+132)/300 = 0.68667正好是正确分类的实例所占比例。这个矩阵 对角线上的数字越大,说明预测得越好。4. 模型应用 现在我们要用生成的模型对那些待预测的数据集进行预测了,注意待预测数据集和训练用数据集各个属性 的设置必须是一致的。 WEKA 中并没有

8、直接提供把模型应用到带预测数据集上的方法,我们要采取间接的办 法。在“Test Opion”中选择“Supplied test set,并且 “Set”成 “bank-new.arff”文件。重新“Start 一次。注意这次生成的模型没有通过交叉验证来选择,“Classifier output”给出的误差分析也没有多少 意义。这也是间接作预测带来的缺陷吧。现在,右键点击“Result list”中刚产生的那一项,选择“Visualize classifier errors。我们不去 管新窗口中的图有什么含义,点“ Save ”按钮,把结果保存成“bank-predicted.arff”。这个A

9、RFF文件 中就有我们需要的预测结果。在“ Explorer ”的“ Preprocess ”选项卡中打开这个新文件,可以看到多了 两个属性“Instance_number”和“predictedpep”“Instance_number”是指一个实例在原 “bank-new. arff”文件中的位置,“predictedpep”就是模型预测的结果。点“Edit”按钮或者在“ArffViewer”模 块中打开可以查看这个数据集的内容。比如,我们对实例0的pep预测值为“YES”,对实例4的预测值为 “ NO”。使用命令行(推荐) 虽然使用图形界面查看结果和设置参数很方便,但是最直接最灵活的建模及

10、应用的办法仍是使用命令行。打开“Simple CLI”模块,像上面那样使用“J48”算法的命令格式为:java weka.classifiers.trees.J48 -C 0.25 -M 2 -t directory-pathbank.arff -d directory-path bank.model其中参数“ -C 0.25”和“-M 2”是和图形界面中所设的一样的。“-t ”后面跟着的是训练数据集的完整 路径(包括目录和文件名),“-d ”后面跟着的是保存模型的完整路径。注意!这里我们可以把模型保存 下来。输入上述命令后,所得到树模型和误差分析会在“Simple CLI”上方显示,可以复制

11、下来保存在文本文件 里。误差是把模型应用到训练集上给出的。把这个模型应用到“bank-new.arff”所用命令的格式为:java weka.classifiers.trees.J48 -p 9 -l directory-pathbank.model -T directory-path bank-ne w.arff其中“-p 9”说的是模型中的Class属性是第9个(也就是“pep”),“-l ”后面是模型的完整路径,“- T”后面是待预测数据集的完整路径。输入上述命令后,在“Simple CLI”上方会有这样一些结果:0 YES 0.75 ?1 NO 0.7272727272727273 ?

12、2 YES 0.95 ?3 YES 0.8813559322033898 ?4 NO 0.8421052631578947 ?这里的第一列就是我们提到过的“Instance_number”,第二列就是刚才的“predictedpep”,第四列则是 “bank-new.arff”中原来的“pep”值(这里都是“?”缺失值)。第三列对预测结果的置信度(confide nce )。比如说对于实例0,我们有75%的把握说它的“pep”的值会是“YES”,对实例4我们有84.2%的 把握说它的“pep”值会是“N0”。我们看到,使用命令行至少有两个好处。一个是可以把模型保存下来,这样有新的待预测数据出现

13、时,不 用每次重新建模,直接应用保存好的模型即可。另一个是对预测结果给出了置信度,我们可以有选择的采 纳预测结果,例如,只考虑那些置信度在 85%以上的结果。可惜,命令行仍不能保存交叉验证等方式选择过的模型,也不能将它们应用到待预测数据上。要实现这一 目的,须用到“ KnowledgeFlow ”模块的“ PredictionAppender”。5. DM步骤1. 明确目标与理解资料;2. 获取相关技术与知识;3. 整合与查核资料;4. 去除错误或不一致及不完整的资料;5. 由数据选取样本先行试验;6. 研发模式(model)与型样(pattern);7. 实际Data Mining的分析工作;8. 测试与检核;9. 找出假设并提出解释;10. 持续应用于企业流程中。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!