《数据挖掘及其应用讲义》应用关联规则课件

上传人:陈** 文档编号:253351820 上传时间:2024-12-11 格式:PPT 页数:29 大小:180KB
收藏 版权申诉 举报 下载
《数据挖掘及其应用讲义》应用关联规则课件_第1页
第1页 / 共29页
《数据挖掘及其应用讲义》应用关联规则课件_第2页
第2页 / 共29页
《数据挖掘及其应用讲义》应用关联规则课件_第3页
第3页 / 共29页
资源描述:

《《数据挖掘及其应用讲义》应用关联规则课件》由会员分享,可在线阅读,更多相关《《数据挖掘及其应用讲义》应用关联规则课件(29页珍藏版)》请在装配图网上搜索。

1、,单击此处编辑母版标题样式,*,单击此处编辑母版文本样式,第二级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,*,关联规则应用,1,关联规则,设,I=I,1,I,2,I,m,是一组数据项集合,D,是与任务相关的数据集合,也称为交易数据库。其中每个,交易,T,是一个数据项子集,,TI,。关联规则是如下形式的一种蕴含,:,A B,表示,If conditions then result,其中,AI,BI,且,AB=,。一般用,支持度、可信度、期望可信度、作用度,4,个参数来描述一个关联规则的属性。,可信度,:,在属性集,A,出现的前提下,B,出现的,概率,P(B|A),支持度,:,

2、属性集,A,B,同时出现的概率,P(AB),期望可信度,:,属性集,B,出现的概率,P(B),作用度,:,可信度对期望可信度的比值,P(B|A)/P(B),可信度,是对关联规则准确度的衡量,支持度,是对关联规则重要性的衡量。显然,支持度越大,关联规则越重要。有些关联规则可信度虽然很高,但支持度却很低,说明该关联规则实用的机会很小,因此也不重要。,作用度,描述属性集,A,的出现对属性集,B,的出现有多大影响。作用度越大,说明属性集,B,受属性集,A,的影响越大。一般情况,有用的关联规则的作用度都应大于,1,只有关联规则的可信度大于期望可信度,才说明,A,的出现对,B,的出现有促进作用,也说明了它

3、们之间某种程度的相关性,如果作用度不大于,1,则此关联规则就没有意义。,2,关联规则算法(,Apriori,算法),2.1,概念介绍,项集,:一个数据项的集合;,K,项集,:一个包含,k,个数据项的项集;,项集频度,:整个交易数据库,D,中,包含该项集的交易记录数,也称为该项集的支持度。,频繁项集,:满足最小支持度的项集。,若一个项集的出现频度大于最小支持度阈值乘以交易记录集,D,中的记录数,就称该项集满足最小支持度阈值;满足最小支持度阈值所对应的交易记录数称为最小支持频度。,返回,2.2 Apriori算法,Apriori,算法是一个基于两阶段频繁项集的数据挖掘方法,将关联规则挖掘算法分为两

4、部分,:,一是找到所有支持度大于最小支持度的项集,称为频繁项集,二是使用第一步找到的频繁项集产生期望规则,.,Apriori,算法的性质:如果一个项集是频繁的,则它的所有子集也是频繁的。,首先,给定最小支持度及最小可信度。,返回,第一步,:,找频繁项集,由数据库读入所有的交易,得出候选单项集的支持度,再找出频繁单项集,并利用这些频繁单项集的结合,产生候选,2,项集,若候选,2,项集的支持度大于或等于最小支持度,则该候选项集为频繁项集,即为频繁,2,项集,并利用频繁,2,项集的结合,产生候选,3,项集,若候选,3,项集的支持度大于或等于最小支持度,则该候选项集为频繁,3,项集,并利用高频,3,项

5、集的结合,产生候选,4,项,,,最后产生频繁多项集,再结合产生下一级候选项集,,直到新产生的候选项集的支持度小于给定的最小支持度,,则不再结合产生新的候选项集,算法结束。,第二步,:,由频繁项集产生期望规则,(1),对于每个,频繁项集,L,产生,L,的所有非空子集,;,(2),对于,L,的每个,非空子集,S,如果其可信度大,于最小可信度,则输出规则,”,s,L-s,”,(,一,)Apriori,算法在学生成绩分析中的应用研究,学生的各科考试成绩一直以来作为国内各高等院校评价学生学业以及综合素质的重要指标,各高校经过长期的积累都储存了大量的学生成绩信息,但对成绩的分析处理一般还停留在简单的查询和

6、统计阶段,例如统计优、良、及格、不及格等级别的人数以及计算平均成绩、标准差等指标,而对于学生取得这些,成绩与课程之间的关系,有无关联往往没有深入了解。如果能够合理开发利用这些数据,找到,课程之间的相关关系对学生成绩的影响,,必将对课程的设置与安排具有重大的指导意义。,1 研究对象,以沈阳农业大学,01,届计算机专业学生在校四年的学习成绩作为数据源,选取成绩数据库中,计算机网络,、,外语,、,工科高数,、,计算机基础,、,操作系统,等,8,门课程作为研究对象,挖掘出某门课程对于其他课程的影响程度,为教务人员以后安排课程提供参考,为学生选课提供指导。,2,数据预处理,2.1,数据清理,原始数据库中

7、包含全校各个专业、各个年级、各门课程的所有成绩,某些记录难免会有一些差错或者从经验上看没有关联,为了便于进行数据挖掘,只选取,01,届计算机专业学生的,计算机网络,等,8,门课程成绩作为挖掘对象,去掉所有其他不必要的字段,删除空白以及数据有缺失的记录。清理后的数据表部分数据如图,1,所示。,图,1,原始数据表,2.2 数据转换,学生成绩是以数值形式表示的,不便于进行数据挖掘,因此对各科成绩进行离散化处理,即转换为优、良、中、及格、不及格,5,个等级。大于,90,分的为,“,优,”,,,80,90,分之间的为,“,良,”,,,70,80,分之间的为,“,中,”,,,60,70,分之间的为,“,及

8、格,”,,小于,60,分的为,“,不及格,”,。,“,优、良、中、及格、不及格,”,5,个等级分别用数字,“,1,、,2,、,3,、,4,、,5,”,表示,,用,“,A,”,表示计算机网络,,“,B,”,表示数据结构,,“,C,”,表示计算机基础,,“,D,”,表示外语,以此类推。将各科目字段设置为字符型,转换后的数据表部分数据如图,2,所示。,图,2,转换后数据表,3,研究方法,3,2 Apriori,算法应用,用宽度优先的迭代搜索方法,首先找出频繁,1-,项集,L1,,用,L1,查找频繁,2-,项集,L2,,以此类推,直到求出所有的频繁项目集。若发现某频繁项集的数目为零,则停止计算。最后,

9、输出所有项目的频繁集。在该程序中依然运用了,Apriori,算法的性质:如果一个项集是频繁的,则它的所有子集也是频繁的。设最小支持度为,0.3,,产生频繁项目集,56,个,从产生的频繁项集中确定它们的子集,然后根据关联规则挖掘算法原理,设最小可信度为,0.6,,由程序得出关联规则,18,个,部分规则如表,1,所示。,4,结果与分析,规则,1,说明,,数据结构,成绩在,80,90,分之间,,高级语言程序设计,成绩也在,80,90,分之间的支持度为,66.8%,置信度为,89.2%,说明学好,数据结构,课程对学好,高级语言课程,起到关键作用,以后安排课程时可以将,数据结构,安排在前,教师授课中要督

10、促学生学好这门课程,打好基础。,规则,3,说明,外语,成绩在,70,80,分之间,,高级语言程序设计,成绩在,80,90,分之间的支持度为,61.6%,置信度为,79.8%,,,规则,4,说明,计算机基础,成绩在,70,80,分之间,,高级语言程序设计,在,80,90,分之间的支持度为,72.6%,,置信度为,85.7%,;这两个规则表示公共基础课程,外语,和,计算机基础,对学好计算机专业课也很重要,同时可以看出,计算机基础,成绩和,外语,成绩相对偏低,需要引起重视。,规则,5,说明,数据库原理,成绩在,80,90,分之间,,计算机网络,也在,80,90,分之间的支持度为,58.4%,置信度为

11、,76.5%,规则,6,说明,高级语言程序设计,在,80,90,分之间,,计算机网络,也在,80,90,分之间的支持度为,56.9%,置信度为,83.4%,这两个规则虽然可信度和置信度都较高,但实际究竟有无关联需要深入探讨。,规则,2,说明,计算机基础,成绩在,70,80,分之间,,工科高数,在,80,90,分之间的支持度为,55.8%,置信度为,87.2%,虽然可信度和置信度都达到了要求,但根据实际经验,两者并无直接关联,实际工作中可以不予考虑。其他规则同样如此,需要决策者根据实际情况具体研究,有分析地借鉴参考。,5,结语,高等学校学生信息量巨大,运用关联规则挖掘算法进行数据挖掘,能够得到很

12、多有价值的信息,挖掘出的规则对教务人员以及教师具有重大意义。举一反三,如果从其他信息中能够挖掘出更多的规则,例如个人成绩与班级、专业之间的关系;个人成绩与家庭、地域之间的关系等,必然对教学工作起到积极的指导作用。,Apriori算法的应用,例,:,假设数据项集合,I=I,1,I,2,I,3,I,4,I,5,共有,5,个数据项,表,1,给出含有这,5,个数据项的,9,条交易数据库,第一列是交易数据的标识号,第二列是交易数据所包含的项目,假定,最小支持度是,2,最小可信度为,50%,求最大频繁项目集及其期望规则,.,表,1,交易数据集,注,:,支持度,=,项集频度,选择有且只有一个相同元素的两个,

13、2_,项频繁集进,行连接,生成,3_,项候选集是,I1,I2,I3,I1,I2,I5,I1,I3,I5,I2,I3,I4,I2,I3,I5,I2,I4,I5,I1,I2,I4,如果一个项集是频繁的,则它的所有子集也是频,繁的。所以只考虑,I1,I2,I3,I1,I2,I5.,生成,4_,项候选集是,I1,I2,I3,I5,而,I2,I3,I5,不是频繁集,所以不存在,4_,项频繁集,.,从两个最大频繁集,I1,I2,I3,和,I1,I2,I5,可推出侯选关联规则,再从侯选关联规则中选出大于最小可信度的关联规则即为期望的规则,.,从最大频繁项集中可得候选关联规则,大于最小可信度的为关联规则,(*),同理,从六个,2_,项频繁集可推出侯选关联规则,再从侯选关联规则中选出大于最小可信度的关联规则即为期望的规则,.,SQL Server 2005:,最低支持,:,此参数是关联规则的最小支持,低于此值的对象组将会被过滤,;,最小项集大小,:,项集的对象数低于此值将会被过滤,;,最小概率,:,此参数是关联规则的最小可信度,低于此值的规则将会被过滤,;,最低重要性,:,此参数是关联规则的作用度,通过对数的方式来取得,大于零,指标越大,规则越显著,小于零,指标越小,.,

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

相关资源

更多
正为您匹配相似的精品文档
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  sobing.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!