决策树C4.5算法在成绩分析中的应用

上传人:lis****210 文档编号:170205982 上传时间:2022-11-19 格式:DOCX 页数:7 大小:16.72KB
收藏 版权申诉 举报 下载
决策树C4.5算法在成绩分析中的应用_第1页
第1页 / 共7页
决策树C4.5算法在成绩分析中的应用_第2页
第2页 / 共7页
决策树C4.5算法在成绩分析中的应用_第3页
第3页 / 共7页
资源描述:

《决策树C4.5算法在成绩分析中的应用》由会员分享,可在线阅读,更多相关《决策树C4.5算法在成绩分析中的应用(7页珍藏版)》请在装配图网上搜索。

1、决策树C4.5算法在成绩分析中的应用王黎黎;刘学军【摘要】Analyzing the performance of students and extracting influencing factors and rules are helpful for making scientific guid-ance for the studentslearning. This paper describes an analysis method based on decision tree C4. 5 algorithm,and takes the analysis of studentsEngli

2、sh examination performance for example. After selecting attributes,building data sets,data preprocessing and model building,the influencing factors and rules are extracted. Experimental result shows that the model has a good cross-validation rate and correct prediction rate. And it shows that using

3、this method to analyze the performance of students is reasonable.% 对学生的成绩进行分析并找出影响成绩的主要因素和规则,有利于科学指导学生的 学习介绍了一种以决策树C4.5算法为基础的学生成绩分析方法并以考研英语 成绩分析为例,进行属性选择、构建数据集、数据预处理并建立模型,以提取影响 考研英语成绩的主要因素和规则实验表明,该模型有较好的交叉验证率和正确预 测率,用此方法对学生成绩进行分析是合理的.期刊名称】 河南工程学院学报(自然科学版)年(卷),期】 2014(000)004【总页数】5页(P69-73)【关键词】成绩分析;

4、决策树;C4.5算法;影响因素作 者】 王黎黎;刘学军【作者单位】南京航空航天大学 计算机科学与技术学院,江苏 南京210016;南京 航空航天大学 计算机科学与技术学院,江苏 南京210016【正文语种】中文【中图分类】TP391学生成绩的数据量很庞大,从这些海量的数据中可以提炼出其中的关系和规则并预 测未来的发展趋势.快速且准确地对学生成绩进行分析,探讨影响学生成绩的主要 因素,可以指导学生制定正确的规划、提高成绩、为学生预测成绩提供依据,具有 重要的现实意义.分类是数据挖掘过程中的重要方法,最常用的分类算法类型有决策树、神经网络、 朴素贝叶斯、最邻近分类法(KNN)、支持向量机(SVM)

5、1.其中,决策树有最好的数 据类型处理能力,可以直接处理各种类型的数据,是一种对海量数据集进行分类的 非常有效的方法2-3.通过决策树模型可以提取有价值的分类规则、帮助决策者做 出准确的预测,在科学研究、现代化教育、市场营销、金融市场分析与预测等许多 领域已得到广泛的应用4-12.C4.5算法具有分类速度快且精度高的特点,是发展比较完善的一种决策树算 送C4.5算法用信息增益率(Information Gain Ratio)来选择属性,克服了用信息 增益选择属性时偏向选择取值多的属性的不足13-14,其在决策树的构造过程中 进行剪枝,避免过拟合的发生15-16本研究应用C4.5算法对学生的考研

6、英语成 绩进行分析,找出影响成绩的主要因素和规则,为学生制定复习规划并预测成绩提 供了理论依据.C4.5算法以信息增益率作为衡量标准,计算每个属性的信息增益率,选具有最高 信息增益率的属性作为给定集合S的测试属性创建一个结点,对该属性的每一个 值创建分枝并据此划分样本17.信息增益率是用信息增益和分裂信息来共同定义的,即式中,一个属性A相对S的信息增益Gain(S,A)被定义为式中,Values(A)是A所有值的集合,Sv是S中A的值为v的子集,|S|表示S中的样本数量.S相对于c个状态的熵定义为式中,pi表示任意样本属于类别i的比例.分裂信息用来衡量属性分裂数据的广度和均匀性,被定义为本研究

7、介绍了一种以决策树 C4.5 算法为基础的分析学生成绩的方法,具体流程如 图1 所示.该流程包含属性选择、数据收集、数据预处理、模型建立、提取有用信 息和模型评价6 个步骤.在用于构建决策树模型的样本集合中,有很多的特征属性,每一个特征属性对于分类都有不同的敏感程度.属性的选择非常重要,直接影响到建模的性能和分类的准确性.成绩分析中一般会用到考试成绩、平时学习情况等属性,具体应用该方法时应该根据各个科目的特性选择属性.确定所需要的属性信息后,选择合适的信息收集方法,收集数据并生成原始数据集.数据的质量对于决策非常重要,只有正确的 数据才能够为正确的决策带来价值,所收集的原始数据不能直接用于建模

8、,因为这 些数据一般是含噪声的,不方便进行分类,故需要对这些数据进行预处理以提高数 据的质量,进而提高建模过程的精度和性能.完成对数据的处理后,可以进行模型训练.在数据集中抽取 80%的数据作为训练集, 剩下的数据作为测试数据集,作为训练模型的验证.在训练集中应用 C4.5 算法构造 决策树模型.决策树是一种类似于流程图的树结构,它采用自顶向下的递归方式, 在决策树的内部进行节点属性值的比较,根据不同的属性值从某节点向下分支,叶 节点是要划分的类.从建立的决策树模型中可以生成分类规则,提取影响分类的主 要因素.叶节点以外的各个节点即为模型的主要影响因素,从根节点到叶节点的一 条路径就对应着一条

9、合取规则,整个决策树就对应着一组析取表达式规则. 最后进行模型评价.把训练数据分为常规训练集和校验集,对其采用交叉验证的方 法,确定数据集的分类精度.交叉验证是常用的测试方法,本研究采用十折交叉验 证方法,首先将数据集分成10 份,轮流将其中的9份作为训练数据,另一份作为 校验数据进行试验,每次试验都会获得一个相应的正确率.然后,对 10 次结果的正 确率取平均,均值作为决策树算法精度的估计.最后,用决策树模型对测试数据集进 行预测并和真实数据比较,分析用此模型对以后的数据进行预测是否符合实际情况. 本研究以分析考研英语成绩为例,应用上述方法.在考研科目中,英语有它独有的 特点,考研英语成绩并

10、不和复习时间成正比,制定正确的复习规划尤为重要.提取 影响英语成绩的主要因素和规则,为考研学生制定复习规划和预测成绩提供依据.3.1 属性选择 针对英语考试的特性,选择以下指标决策树建模的属性:学生的考研英语成绩、四 六级成绩和考研英语复习情况.其中,复习情况包括背单词的情况、做历年真题的 情况、分析历年真题的情况、做考研模拟题的情况以及考研作文是否用模板.3.2 数据收集和数据预处理 采用调查问卷和网上调查的形式对参加考研的学生进行调查,共获得了 150 条数 据,原始数据集的部分数据如表 1 所示. 按“考研英语成绩”属性进行分类,构建模型前把考研英语成绩划分为 3 个等级, 转换标准如表

11、2 所示.表1 的数据划分过细,不便于直接分类,故对表 1 进行数据 整理.“CET-4分数”和“CET-6分数”属性分别用“CET4”和“CET6”字段表 示,其所有值按0-424分、425 549分和550分以上划分成“low”、“pass” 和“good”3个不同属性值“背单词情况”、“是否做完历年真题”、“是否分 析历年真题”、“是否做完两套以上的模拟题”以及“是否用作文模板”属性分别 用 “word”、“test”、“analyse”、“selftest” 和 “esseymodeI” 字段表示, 其属性值对应表示为“yes”和“no”.按照以上要求进行数据整理,生成用于构 建决策树

12、模型的数据集,如表3所示.3.3 建立模型 从数据集中随机抽取125条数据作为训练数据集,把训练数据分为常规训练集和 校验集,对其采用十折交叉验证方法以确定数据集的分类精度.剩下的25条数据作 为测试数据集,测试决策树的正确预测率.Weka 是一个公开的数据挖掘工作平台,汇集了机器学习算法 (分类、回归、聚类、 关联规则和可视化)及预处理工具,目的是为了让用户能够快速灵活地将现有的处 理方法应用于新的数据集在Weka中对数据集进行决策树分析,产生的决策树如 图2所示.3.4提取有用信息从建立的决策树模型中可以生成分类规则,提取影响分类的主要因素以上决策树 生成的推测学生考研英语成绩的规则共有5

13、个.规则1: If四级成绩为425 549分and复习时认真分析历年考研真题and没有 做考研模拟题then考研英语成绩在40-59分;规则2:If四级成绩为425 549分and复习时认真分析历年考研真题and做考研 模拟题then考研英语分数在60分以上;规则3: If 四级成绩为425-549分 and 复习时没有认真分析历年考研真题 then 考研英语成绩在40-59分;规则4:If四级成绩在425分以下then考研英语成绩在40分以下;规则5: If四级成绩为550分以上then考研英语成绩在60分以上.从决策树模型和得到的分类规则可以看出,在影响学生考研英语成绩的诸多因素中, 主要

14、影响因素是“英语四级考试成绩”、“复习时分析历年考研真题的情况”和 “复习时做考研模拟题的情况”.其中,“英语四级考试成绩”对考研英语成绩的 影响最大,说明“英语四级考试成绩”在一定程度上可以反映一个学生的英语水平. 生成的规则清晰明了,学生可以结合自身的英语学习情况,根据这些规则调整英语 复习的策略,提高复习效率.例如,对于英语四级考试成绩不理想的学生,应该在 复习时认真分析考研真题并做考研模拟题,以提高考研英语成绩.3.5 模型评价C4.5算法分类速度快且精度高,在决策树的构造过程中进行了剪枝,以避免过拟 合的发生.实验产生的决策树模型简洁明了,可理解性和可用性强.对样本数据集采用十折交叉

15、验证方法测试,其交叉验证率约为70%.用该模型对测 试数据集进行预测,其平均正确预测率为84% ,各个类别的正确预测率统计如表 4所示.实验结果表明,用该模型预测学生的考研英语成绩比较符合实际情况,进 而说明用以决策树C4.5算法为基础的分析方法对学生成绩进行分析是合理的.介绍了一种以决策树C4.5算法为基础的分析学生成绩的方法,并详细介绍了决策 树技术在学生成绩分析中的应用过程.以学生考研英语成绩分析为例,应用以上方 法建立了决策树模型,实验表明该模型有较好的交叉验证率和正确预测率,用该模 型预测的学生考研英语成绩比较符合实际情况.分析学生考研英语成绩的例子说明用以C4.5算法为基础的方法分

16、析学生成绩是合 理的,该方法可以用于各种类型的考试成绩分析中,探讨影响学生成绩的主要因素, 提取影响学生成绩的规则,指导学生制定正确的学习规划.【相关文献】1 Tan P,Steinbach M,Kumar V 数据挖掘导论M.范明,范宏建,译北京:人民邮电出版社,20062 Quinlan J RInduction of decision treeJMachine Learning,1986(1) : 81-1063 Quinlan J RC4.5 : Programs for Machine LearningMSan Mateo:MorganKaufman Publisher,19934

17、董欢,王凯东决策树技术在高校学生成绩分析中的应用研究D.西安:西安电子科技大学,2012:10-115 武彤,王秀坤决策树算法在学生成绩预测分析中的应用J 微计算机信息,2010(3) : 209- 211陈绍炜,王聪,赵帅决策树算法在电路故障诊断中的应用J 计算机工程与应用,2013 , 49(12):233-2367 程克非,程蕾,黄永东基于J48决策树算法的水质评价方法J.计算机工程,2012 , 11(8): 264-2678 桂现才,彭宏,王小华.C4.5算法在保险客户流失分析中的应用J.计算机工程与应用, 2005,41(17):197-1999 罗森林,成华,顾毓清,等数据挖掘在

18、2型糖尿病数据处理中的应用J.计算机工程与设计, 2004 , 25(11) : 1888-189210 张德政,李天驰,阿淄古丽决策树C4.5算法在天然气输差分析中的应用J 计算机工程与 应用,2006,42(23):208-21011 吴陈,林炎钟.C4.5算法在高校老师评价中的应用研究J.信息技术,2010(1) : 17-19 .12 徐鹏,林森基于C4.5决策树的流量分类方法J 软件学报,2009 , 20(10) : 2692-2704 .13 王桂芹,黄道决策树算法研究及应用J.电脑应用技术,2008:1-7 .14 毛国军,段立娟,王实数据挖掘原理与算法M . 2版北京:清华大学出版社,2007 .15 陈杰基于遗传算法的决策树剪枝方法D 保定:河北大学,2010 .16 冯少荣,尚文俊基于样本选取的决策树改进算法J.西南交通大学学报,2009,44: 643-63717 屈志毅,周海波决策树算法的一种改进算法J 计算机应用,2008 , 28(S1) : 141-143 .

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!