机器学习FPGROWTH算法PPT56页

上传人:沈*** 文档编号:186946906 上传时间:2023-02-10 格式:PPT 页数:58 大小:2.47MB
收藏 版权申诉 举报 下载
机器学习FPGROWTH算法PPT56页_第1页
第1页 / 共58页
机器学习FPGROWTH算法PPT56页_第2页
第2页 / 共58页
机器学习FPGROWTH算法PPT56页_第3页
第3页 / 共58页
资源描述:

《机器学习FPGROWTH算法PPT56页》由会员分享,可在线阅读,更多相关《机器学习FPGROWTH算法PPT56页(58页珍藏版)》请在装配图网上搜索。

1、机器学习-FP-GROWTH算法李家豪2目录3回忆Apriori算法 项集:项的集合称为项集,即商品的组合。k项集:k件商品的组合,不关心商品件数,仅商品的种类。频繁项集:如果项集的相对支持度满足给定的最小支持度阈值,则该项集是频繁项集。强关联规则:满足给定支持度和置信度阈值的关联规则 支持度:support(A-B)=P(AB)置信度:confidence(A-B)=P(A|B)4回忆Apriori算法5回忆Apriori算法6Apriori算法的挑战挑战 多次数据库扫描 巨大数量的候补项集 繁琐的支持度计算改善Apriori:基本想法 减少扫描数据库的次数 减少候选项集的数量 简化候选项集

2、的支持度计算7FP-GROWTH算法优点 相比Apriori算法需要多次扫描数据库,FPGrowth只需要对数据库扫描2次。第1次扫描事务数据库获得频繁1项集。第2次扫描建立一颗FP-Tree树。8FP-GROWTH算法原理-实例1 要找总是一起购买的商品,比如薯片,鸡蛋就是一条频繁模式(规律)。IDItems1牛奶,鸡蛋,面包,薯片2鸡蛋,爆米花,薯片,啤酒3牛奶,面包,啤酒4牛奶,鸡蛋,面包,爆米花,薯片,啤酒5鸡蛋,面包,薯片6鸡蛋,面包,啤酒7牛奶,面包,薯片8牛奶,鸡蛋,面包,黄油,薯片9牛奶,鸡蛋,黄油,薯片9FP-GROWTH算法原理-实例1-统计频次Step1:先扫描数据库,统

3、计所有商品的出现次数(频数),然后按照频数递减排序,删除频数小于最小支持度的商品。设最小支持度数为:minsup=4统计频数:牛奶6,鸡蛋7,面包7,薯片7,爆米花2,啤酒4,黄油2.降序排序:薯片7,鸡蛋7,面包7,牛奶6,啤酒4(删除小于minsup的商品)IDItems1牛奶,鸡蛋,面包,薯片2鸡蛋,爆米花,薯片,啤酒3牛奶,面包,啤酒4牛奶,鸡蛋,面包,爆米花,薯片,啤酒5鸡蛋,面包,薯片6鸡蛋,面包,啤酒7牛奶,面包,薯片8牛奶,鸡蛋,面包,黄油,薯片9牛奶,鸡蛋,黄油,薯片 频繁1项集,记为F110FP-GROWTH算法原理-实例1-重新排序IDItems1牛奶,鸡蛋,面包,薯片2

4、鸡蛋,爆米花,薯片,啤酒3牛奶,面包,啤酒4牛奶,鸡蛋,面包,爆米花,薯片,啤酒5鸡蛋,面包,薯片6鸡蛋,面包,啤酒7牛奶,面包,薯片8牛奶,鸡蛋,面包,黄油,薯片9牛奶,鸡蛋,黄油,薯片IDItems1薯片,鸡蛋,面包,牛奶2薯片,鸡蛋,啤酒3面包,牛奶,啤酒4薯片,鸡蛋,面包,牛奶,啤酒5薯片,鸡蛋,面包6鸡蛋,面包,啤酒7薯片,面包,牛奶8薯片,鸡蛋,面包,牛奶9薯片,鸡蛋,牛奶Step2:对每一条数据记录,按照F1重新排序。11FP-GROWTH算法原理-实例1-建立FP树IDItems1薯片,鸡蛋,面包,牛奶2薯片,鸡蛋,啤酒3面包,牛奶,啤酒4薯片,鸡蛋,面包,牛奶,啤酒5薯片,鸡

5、蛋,面包6鸡蛋,面包,啤酒7薯片,面包,牛奶8薯片,鸡蛋,面包,牛奶9薯片,鸡蛋,牛奶Step3:把第二步重新排序后的记录,插入到fp-tree中Step3.1:插入第一条(第一步有一个虚的根节点)12FP-GROWTH算法原理-实例1-建立FP树IDItems1薯片,鸡蛋,面包,牛奶2薯片,鸡蛋,啤酒3面包,牛奶,啤酒4薯片,鸡蛋,面包,牛奶,啤酒5薯片,鸡蛋,面包6鸡蛋,面包,啤酒7薯片,面包,牛奶8薯片,鸡蛋,面包,牛奶9薯片,鸡蛋,牛奶Step3.2:插入第二条。根结点不管,然后插入薯片,在step3.1的基础上+1,则记为2;同理鸡蛋记为2;啤酒在step3.1的树上是没有的,那么就

6、开一个分支。13FP-GROWTH算法原理-实例1-建立FP树IDItems1薯片,鸡蛋,面包,牛奶2薯片,鸡蛋,啤酒3面包,牛奶,啤酒4薯片,鸡蛋,面包,牛奶,啤酒5薯片,鸡蛋,面包6鸡蛋,面包,啤酒7薯片,面包,牛奶8薯片,鸡蛋,面包,牛奶9薯片,鸡蛋,牛奶Step3.3:插入第三条14FP-GROWTH算法原理-实例1-建立FP树IDItems1薯片,鸡蛋,面包,牛奶2薯片,鸡蛋,啤酒3面包,牛奶,啤酒4薯片,鸡蛋,面包,牛奶,啤酒5薯片,鸡蛋,面包6鸡蛋,面包,啤酒7薯片,面包,牛奶8薯片,鸡蛋,面包,牛奶9薯片,鸡蛋,牛奶同理,剩余记录依次插入fp-tree中。15FP-GROWTH

7、算法原理-实例1-建立FP树图中左边的一列叫做头指针表,树中相同名称的节点要链接起来,链表的第一个元素就是头指针表里的元素。虚线连接起来的表示同一个商品,各个连接的数字加起来就是该商品出现的总次数。16FP-GROWTH算法原理-实例1-挖掘频繁项集Step4:从FP-Tree中找出频繁项集。遍历表头项中的每一项(以“牛奶:6”为例),从FP-Tree中找到所有的“牛奶”结点,向上遍历它的祖先结点,得到4条路径,如表所示。17FP-GROWTH算法原理-实例1-挖掘频繁项集Step4:从FP-Tree中找出频繁项集。对于每一条路径上的节点,其count都设置为牛奶的count(路径中最末尾的商

8、品数)18FP-GROWTH算法原理-实例1-挖掘频繁项集Step4:从FP-Tree中找出频繁项集。因为每一项末尾都是牛奶,可以把牛奶去掉,得到条件模式基,此时的后缀模式是:牛奶。19FP-GROWTH算法原理-实例2 把例子简化一下,请看以下实例2TidItems1I1,I2,I52I2,I43I2,I34I1,I2,I45I1,I36I2,I37I1,I38I1,I2,I3,I59I1,I2,I320FP-GROWTH算法原理-实例2-统计频次 先扫描数据库,统计所有商品的出现次数(频数)定义min_sup=2,按照频数递减排序,删除频数小于最小支持度的商品。重新排列得到频繁1-项目集F

9、I1I2I3I4I567622I2I1I3I4I57662221FP-GROWTH算法原理-实例2-重新排序I27I16I36I42I52TidItems1I2,I1,I52I2,I43I2,I34I2,I1,I45I1,I36I2,I37I1,I38I2,I1,I3,I59I2,I1,I322FP-GROWTH算法原理-实例2-创建根结点和频繁项目表Item-nameNode-headI2NullI1NullI3NullI4NullI5NullNull23FP-GROWTH算法原理-实例2-加入第一个事务(I2,I1,I5)24FP-GROWTH算法原理-实例2-加入第二个事务(I2,I4)

10、25FP-GROWTH算法原理-实例2-加入第三个事务(I2,I3)26FP-GROWTH算法原理-实例2-加入第四个事务(I2,I1,I4)27FP-GROWTH算法原理-实例2-加入第五个事务(I1,I3)28FP-GROWTH算法原理-实例2-加入第六个事务(I2,I3)29FP-GROWTH算法原理-实例2-加入第七个事务(I1,I3)30FP-GROWTH算法原理-实例2-加入第八个事务(I2,I1,I3,I5)31FP-GROWTH算法原理-实例2-加入第九个事务(I2,I1,I3)32FP-GROWTH算法原理-实例2-挖掘频繁项集首先考虑I5,得到条件模式基:、构造条件FP-T

11、ree得到I5频繁项集:I2,I5,I1,I5,I2,I1,I533FP-GROWTH算法原理-实例2-挖掘频繁项集接着考虑I4,得到条件模式基:、构造条件FP-Tree得到I4频繁项集:I2,I434FP-GROWTH算法原理-实例2-挖掘频繁项集然后考虑I3,得到条件模式基:、构造条件FP-Tree由于此树不是单分支路径,因此需要递归挖掘I335FP-GROWTH算法原理-实例2-挖掘频繁项集 递归考虑I3,此时得到I1条件模式基,即I1,I3的条件模式基为 构造条件FP-Tree得到I3的频繁项目集I2,I3,I1,I3,I2,I1,I336FP-GROWTH算法原理-实例2-挖掘频繁项

12、集 最后考虑I1,得到条件模式基:构造条件FP-Tree得到I1的频繁项目集:I2,I137FP-GROWTH算法实现-数据处理项集e,m,q,s,t,y,x,zx,s,r,o,ns,u,t,w,v,y,x,zq,p,r,t,y,x,z h,r,z,p,jz格式化处理38代码实现-FP树数据结构39代码实现-构造FP树步骤40代码实现-构造FP树41代码实现-构造FP树42代码实现-构造FP树(updateTree函数)43代码实现-构造FP树(updateHeader函数)44代码实现-构造FP树(验证)45代码实现-挖掘频繁项集步骤从构建好的FP树中抽取频繁项集的步骤如下:(1)从FP树中

13、获取条件模式基;(2)利用条件模式基,构建一个条件FP树;(3)迭代重复(1)(2),直到树包含一个元素项为止。46条件模式基定义 条件模式基是以所查找元素项为结尾的路径集合所查找元素项为结尾的路径集合。每一条路径其实都是一条前缀路径前缀路径。简而言之,一条前缀路径就是介于所查找元素项与树根节点之间的所有内容。每一个频繁项的所有前缀路径(条件模式基):47代码实现-抽取条件模式基eg:t的第1条前缀路径prefixPath=t,s,y,x,z;48代码实现-抽取条件模式基49代码实现-抽取条件模式基(验证)50代码实现-创建条件FP树51代码实现-创建条件FP树52代码实现-运行53示例:从新闻网站点击流中挖掘新闻报道-数据格式54示例:从新闻网站点击流中挖掘新闻报道-代码 在源数据集合中,包含将近100w条记录,该文件中的每一行代表某个用户浏览过的新闻报道。一些用户只看过一篇报道,而有些用户看过2498篇报道,用户和报道被编码成整数。55示例:从新闻网站点击流中挖掘新闻报道-结果56谢谢!演讲完毕,谢谢观看!

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!