Apriori算法在三二分段成绩分析中的应用

上传人:栀**** 文档编号:47007238 上传时间:2021-12-16 格式:DOCX 页数:5 大小:14.42KB
收藏 版权申诉 举报 下载
Apriori算法在三二分段成绩分析中的应用_第1页
第1页 / 共5页
Apriori算法在三二分段成绩分析中的应用_第2页
第2页 / 共5页
Apriori算法在三二分段成绩分析中的应用_第3页
第3页 / 共5页
资源描述:

《Apriori算法在三二分段成绩分析中的应用》由会员分享,可在线阅读,更多相关《Apriori算法在三二分段成绩分析中的应用(5页珍藏版)》请在装配图网上搜索。

1、Apriori算法在三二分段成绩分析中的应用本文介绍了Apriori算法的基本概念并以本人所在的中职学校计算机专业为例,介绍了使用Apriori算法来挖掘数据之间关联性的方法,找出规律,分析结果,为实际教学工作提供理论支持。随着校园信息化的发展,很多学校都已经建立了各种信息管理系统,在这些系统中往往存储着大量的数据。我们可以通过数据挖掘技术分析这些数据,找出规律为教学工作提供指导。常用的数据挖掘技术有关联规则Apriori算法。1 Apriori算法概述1.1基本概念Apriori算法是一种挖掘数据之间关联性和依赖性的算法。其基本概念有以下几个:事务:一个事务包含一个唯一的事务标识符( tra

2、ns_ID )以及一个组成事务的项的列表。由事务组成的集合称为事务数据库( D)。项:组成事务的各项成员我们通常称为项或者项目,通常用 I=i1,i2 ,i3 , in 来表示所有项的集合;由K 个项目组成的集合又称为K- 项集。支持度:指事务A 和事务 B 在 D 中同时出现的概率,记作,它的计算公式可以表达如下:sup( AB)=P(AB),通常只有支持度大于或等于一定的值才能使研究有意义,这个值称为最小支持度阈值 min_sup 。置信度:指在 D 中,当出现事务 X 时,事务 Y 出现的概率,记作,表示如下: conf ( AB)=P( A|B ),通常只有置信度大于或等于一定的值才能

3、使研究有意义,这个值称为最小置信度阈值 min_conf 。关联规则:指的是形式如下的逻辑蕴涵式: AB 其中 AI , BI ,且 AB 。频繁项集:指频繁地在数据集中出现的项的集合,如果 K- 项集的支持度大于等于 min_sup ,该集合称为频繁 K项集,记作 Lk。1.2频繁项集的生成Apriori算法使用基于先验知识的逐层搜索的迭代方法来产生频项集。K- 项集由( K-1 ) - 项集产生,其过程如下:定义 min_sup 的值,扫描数据库 D,找出满足 min_sup 的项,产生频繁 1 项集 L1,通过迭代,由 L1 产生 L2 直到不能产生更大的频繁项集。为了提高效率,当搜索L

4、k( K1)时要进行连接和剪枝。Apriori算法假设项集中的项是按字典排序的,所以要求 LK-1 中的每个子项有 l1=min_conf ,则输出规则, 对于同时满足最小支持度和最小置信度的关联规则我们又称其为强关联规则,由于前述关联规则是由最大频繁项集推导出来的,所以它们自然满足最小支持度,是强关联规则。2 Apriori算法在三二分段成绩分析中的应用2.1确定挖掘对象本文通过研究挖掘本校11、12 和 13 级计算机专业学生的计算机基础 、程序设计、网页制作、计算机英语 、数据库技术 、动画制作、图像处理的学业成绩,找出影响学生三二分段考试成绩最重要的影响因素。本次研究所采用的成绩数据为

5、751 条,全部来源于本校教务系统。2.2数据处理由于不是每个学生都参加了三二分段考试,所以在清理数据时首先要把没有参加的剔除,另外还有部分学生因各种原因导致某个科目缺考的也一并把他的记录删除。最后整理出来的数据表包含了学号、科目和“三二分段结果”9个字段,共 705 条记录。2.3数据转换为了方便进行挖掘,要对学生的各科成绩进行规范化转换,把散落在一定范围的成绩转换为一个逻辑值。结合本次挖掘的目的,我们把计算机基础、程序设计、网页制作、计算机英语 、数据库技术 、动画制作和图像处理分别用A、B、C、D、E、F、和 G来表示,对于单科成绩大于等于60 分的,用数字1 表示;否则用数字0 表示。

6、三二分段考试结果用isPasswed 来表示,通过用1 表示,否则用 0 表示。转换后的数据表样式如表1。2.4算法描述2.5结果分析经过反复调整和测试,把最小支持度设定为25%,最小置信度设定为60%,产生强关联规则12 条,排除与本实验目的相关性不大的规则,得出如表2 的结果。规则 1 说明,有 60.1%的学生同时通过了 计算机基础和三二分段考试,如果计算机基础通过了,则通过三二分段考试的机率是80.3%;规则 2 说明,有50.8%的学生同时通过了网页制作和三二分段考试,如果网页制作通过了,则通过三二分段考试的机率是75.1%;规则 3 说明,有 40.2%的学生同时通过了动画制作和三二分段考试,如果动画制作通过了,则通过三二分段考试的机率是68.3%;规则 4 说明,有 28.5%的学生同时通过了 程序设计和三二分段考试,如果程序设计通过了,则通过三二分段考试的机率是62.8%;通过以上分析可以看到,对三二分段考试成绩影响最大的科目是计算机基础 、网页制作、动画制作和程序设计。因此,要提高三二分段考试的通过率我们可以加强这些科目的学习。3 结束语本文介绍了使用Apriori算法分析本人所在中职学校计算机专业学生的学业考试成绩数据,找到了影响三二分段考试成绩的最重要的科目,为提高三二分段考试成绩提供方向性的支持。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!