关联规则分析及应用实用教案

上传人:牛*** 文档编号:60425369 上传时间:2022-03-07 格式:PPTX 页数:25 大小:382.67KB
收藏 版权申诉 举报 下载
关联规则分析及应用实用教案_第1页
第1页 / 共25页
关联规则分析及应用实用教案_第2页
第2页 / 共25页
关联规则分析及应用实用教案_第3页
第3页 / 共25页
资源描述:

《关联规则分析及应用实用教案》由会员分享,可在线阅读,更多相关《关联规则分析及应用实用教案(25页珍藏版)》请在装配图网上搜索。

1、目录目录(ml)(ml)基本概念基本概念关联规则挖掘关联规则挖掘(wju)(wju)过程过程分类分类(fn li)(fn li)关联规则的价值衡量关联规则的价值衡量4123挖掘算法挖掘算法关联规则的应用关联规则的应用562012-10-121第1页/共24页第一页,共25页。绪论绪论(xln)p在购买铁锤的顾客(gk)当中,有70的人同时购买了铁钉。p年龄在40 岁以上,工作在A区的投保人当中,有45的人曾经向保险公司索赔过。p p在超市购买面包的人有70%会购买牛奶2012-10-122第2页/共24页第二页,共25页。绪论绪论(xln)2012-10-123第3页/共24页第三页,共25页

2、。一、基本概念一、基本概念设 I=I1,I2,In 是项的集合。任务相关数据D:是事务(或元组)的集合。事务T:是项的集合,且每个事务具有事务标识符TID。项集A:是T 的一个子集,加上TID 即事务。项集(Items):项的集合,包含k个项的项集称为k-项集,如二项集I1,I2。支持度计数(j sh)(Support count):一个项集的出现次数就是整个数据集中包含该项集的事务数。2012-10-124第4页/共24页第四页,共25页。一、基本概念一、基本概念TIDItems001I1、I2、I5002I2、I4003I2、I3004I1、I2、I4005I1、I3006I2、I3007

3、I1、I3008I1、I2、I3、I5009I1、I2、I3DTABInIn(n=1,2,n=1,2,)指具体项目,如指具体项目,如购物篮分析购物篮分析(fnx)(fnx)中:中:I1=I1=苹果苹果I2=I2=面包面包I3=I3=牛奶牛奶I4=I4=尿布尿布I5=I5=啤酒啤酒Support-Support-count(I1)=6count(I1)=62012-10-125第5页/共24页第五页,共25页。一、基本概念一、基本概念 关联规则:形如 A = B 的蕴涵式,其中A I , BI,并且 AB =。 支持度:关联规则在D中的支持度(support)是D中事务(shw)同时包含A、B的

4、百分比,即概率。规则代表性、重要性衡量 Support(A B)=P ( A B ) = support _ count(AB) count (T) 频繁项集:若一个项集的支持度大于等于某个阈值。2012-10-126第6页/共24页第六页,共25页。一、基本概念一、基本概念 置信度c:是包含A的事务中同时又包含B的百分比,即条件概率。规则(guz)准确性衡量 confidence ( A B ) = P ( B | A) 强关联规则(guz):同时满足用户定义的最小支持度阈值(min_sup)和最小置信度阈值(min_conf)的规则(guz)称为强规则(guz)。2012-10-127=9

5、support _ count ( A U B )support_count ( A)第7页/共24页第七页,共25页。二、关联规则挖掘二、关联规则挖掘(wju)过程过程两个步骤:找出所有频繁项集。 由频繁项集生成满足最小信任度阈值的规则。挖掘(wju)模式:2012-10-128min_supmin_conf产生频繁项集生成强关联规则规则评价用户Database第8页/共24页第八页,共25页。二、关联二、关联(gunlin)规则挖掘过程规则挖掘过程关联规则挖掘举例: 假定数据包含频繁(pnfn)项集M=I1,I2,I5。可以由M 产生哪些关联规则?2012-10-129第9页/共24页第九

6、页,共25页。二、关联二、关联(gunlin)规则挖掘过程规则挖掘过程M 的非空真子集(z j)有I1,I2、I1,I5、I2,I5、I1、I2和I5。则结果关联规则如下,每个都列出置信度。2012-10-1210项集项集支持度支持度计数计数67622I1I2I3I4I5项集项集支持度计支持度计数数I1,I24 4I1,I34 4I1,I52 2I2,I34 4I2,I42 2I2,I52 2项集项集支持度支持度计数计数I1,I2,I32I1,I2,I52第10页/共24页第十页,共25页。二、关联规则挖掘二、关联规则挖掘(wju)过程过程I1 I2 I5,I1 I5 I2,I2 I5 I1,

7、I1 I2 I5,I2 I1 I5,I5 I1 I2,2012-10-1211confidence = 2/4 = 50 % confidence = 2/2 = 100 %confidence = 2/2 = 100 %confidence = 2/6 = 33%confidence = 2/7 = 29%confidence = 2/2 = 100 %第11页/共24页第十一页,共25页。二、关联二、关联(gunlin)规则挖掘过程规则挖掘过程如果最小置信度阈值为70%,那么只有第2、3、6个规则可以作为最终的结果输出,因为(yn wi)只有这些是产生的强关联规则。2012-10-1212

8、I1 I5 I2,I2 I5 I1,I5 I1 I2,confidence = 2/2 = 100 %confidence = 2/2 = 100%confidence = 2/2 = 100%第12页/共24页第十二页,共25页。二、关联规则挖掘二、关联规则挖掘(wju)过程过程对强关联规则(guz)的批评:eg:2012-10-1213项目项目打篮球打篮球不打篮球不打篮球合计合计喝麦片200017503750不喝麦片10002501250合计300020005000 在5000个学生中,3000个打篮球,3750个喝麦片粥,2000个学生既打篮球又喝麦片粥。打篮球 = 喝麦片粥 40%,

9、66.7%是错误的,因为全部学生中喝麦片粥的比率是75%,比打篮球学生的66.7%要高。打篮球 = 不喝麦片粥 20%, 33.3%这个规则远比上面那个要精确(jngqu),尽管支持度和置信度都要低的多。第13页/共24页第十三页,共25页。二、关联规则二、关联规则(guz)挖掘过程挖掘过程兴趣度(作用度):描述了项集A对项集B的影响力的大小,即A与B的相关程度。 P(AB) P(A)P(B)若I(A B)=1,即P(A)P(B)=P(AB),A与B相互独立;若I(A B)1,表示A出现和B出现是正相关的。意味着A的出 现蕴含B的出现。小结:只有(zhyu)兴趣度大于1,该规则才具有实际价值。

10、2012-10-1214I(A B)=第14页/共24页第十四页,共25页。三、关联三、关联(gunlin)规则的分类规则的分类p 基于规则中处理的变量的类别p 布尔型:布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系;p B. 数值型:数值型关联规则可以和多维关联或多层 关联规则结合起来(q li),对数值型字段进行处理。p eg: 性别=“女”=职业=“秘书” p 性别=“女”=avg(收入)=23002012-10-1215第15页/共24页第十五页,共25页。三、关联三、关联(gunlin)规则的分类规则的分类p 基于规则中处理(chl)的变量的类别p 布尔型:布

11、尔型关联规则处理(chl)的值都是离散的、种类化的,它显示了这些变量之间的关系;p B. 数值型 :数值型关联规则可以和多维关联或多层 关联规则结合起来,对数值型字段进行处理(chl)。p eg: 性别=“女”=职业=“秘书” p 性别=“女”=avg(收入)=23002012-10-1216第16页/共24页第十六页,共25页。三、关联规则三、关联规则(guz)的分类的分类p 基于规则中数据的抽象层次:p 单层关联(gunlin)规则:所有的变量都没有考虑到现实的数据是具有多个不同的层次的;p 多层关联(gunlin)规则:对数据的多层性已经进行了充分的考虑。p 层:大类是否细分的问题,如上

12、衣可以细分为 衬衣、夹克、风衣等。p eg: IBM台式机=Sony打印机p 台式机=Sony打印机2012-10-1217第17页/共24页第十七页,共25页。三、关联三、关联(gunlin)规则的分类规则的分类2012-10-1218日用品服装夏季服装冬季服装羽绒服品牌1品牌2大衣食品面包牛奶鲜奶品牌1品牌2酸奶分层示例(shl):第18页/共24页第十八页,共25页。三、关联规则三、关联规则(guz)的分类的分类2012-10-1219p 基于规则中数据的维数:p 单维关联规则:只涉及(shj)到数据的一个维,如用户购买的物品;p 多维关联规则:要处理的数据将会涉及(shj)多个维。p

13、p eg: 啤酒=尿布p 性别=“女”=职业=“秘书”TID姓名姓名性别性别职业职业购买物品购买物品月工资月工资001张三女秘书尿布3000002李四男工程师啤酒、尿布5000第19页/共24页第十九页,共25页。四、关联四、关联(gunlin)规则的价值衡量规则的价值衡量对关联规则的评价与价值衡量涉及两个层面:A.系统客观的层面 使用(shyng)“支持度和信任度”框架可能会产生一些不正确的规则。B.用户主观的层面只有用户才能决定规则的有效性、可行性。如果把某些约束条件与算法紧密结合,既能提高数据挖掘效率,又能明确数据挖掘的目标。 2012-10-1220第20页/共24页第二十页,共25页

14、。五、关联规则五、关联规则(guz)的挖掘算法的挖掘算法2012-10-1221uApriori算法u 挖掘或识别出所有频繁项集是该算法的核心,占整个计算量的大部分。 u 不足:产生(chnshng)大量候选频繁集、多次扫描数据库uFP-Tree算法u 优点:不产生(chnshng)候选频繁集、只两次扫描数据库u其他算法第21页/共24页第二十一页,共25页。六、关联规则六、关联规则(guz)的应用的应用气象气象(qxing)预预测测医疗医疗(ylio)诊断诊断购物分购物分析析2012-10-1222第22页/共24页第二十二页,共25页。Thank You!2012-10-1223第23页/共24页第二十三页,共25页。2012-10-12感谢您的观看(gunkn)!第24页/共24页第二十四页,共25页。NoImage内容(nirng)总结目录。在超市购买面包的人有70%会购买牛奶。第2页/共24页。设 I=I1,I2,。事务T:是项的集合,且每个事务具有事务标识符TID。支持度计数(Support count):一个项集的出现次数就是整个数据集中包含该项集的事务数。In(n=1,2,。频繁项集:若一个项集的支持度大于等于某个阈值。置信度c:是包含A的事务中同时(tngsh)又包含B的百分比,即条件概率。P(A)P(B)。第23页/共24页。感谢您的观看第二十五页,共25页。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!