机器学习FPGROWTH算法PPT56页

资源ID：186946906 资源大小：2.47MB 全文页数：58页
资源格式： PPT 下载积分：10积分

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要10积分

邮箱/手机：
温馨提示：	用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

机器学习FPGROWTH算法PPT56页

机器学习-FP-GROWTH算法李家豪2目录3回忆Apriori算法项集：项的集合称为项集，即商品的组合。k项集：k件商品的组合，不关心商品件数，仅商品的种类。频繁项集：如果项集的相对支持度满足给定的最小支持度阈值，则该项集是频繁项集。强关联规则:满足给定支持度和置信度阈值的关联规则支持度：support(A-B)=P(AB)置信度：confidence(A-B)=P(A|B)4回忆Apriori算法5回忆Apriori算法6Apriori算法的挑战挑战多次数据库扫描巨大数量的候补项集繁琐的支持度计算改善Apriori:基本想法减少扫描数据库的次数减少候选项集的数量简化候选项集的支持度计算7FP-GROWTH算法优点相比Apriori算法需要多次扫描数据库，FPGrowth只需要对数据库扫描2次。第1次扫描事务数据库获得频繁1项集。第2次扫描建立一颗FP-Tree树。8FP-GROWTH算法原理-实例1 要找总是一起购买的商品，比如薯片，鸡蛋就是一条频繁模式(规律)。IDItems1牛奶，鸡蛋，面包，薯片2鸡蛋，爆米花，薯片，啤酒3牛奶，面包，啤酒4牛奶，鸡蛋，面包，爆米花，薯片，啤酒5鸡蛋，面包，薯片6鸡蛋，面包，啤酒7牛奶，面包，薯片8牛奶，鸡蛋，面包，黄油，薯片9牛奶，鸡蛋，黄油，薯片9FP-GROWTH算法原理-实例1-统计频次Step1:先扫描数据库，统计所有商品的出现次数(频数)，然后按照频数递减排序，删除频数小于最小支持度的商品。设最小支持度数为：minsup=4统计频数：牛奶6，鸡蛋7，面包7，薯片7，爆米花2，啤酒4，黄油2.降序排序：薯片7,鸡蛋7,面包7,牛奶6,啤酒4（删除小于minsup的商品）IDItems1牛奶，鸡蛋，面包，薯片2鸡蛋，爆米花，薯片，啤酒3牛奶，面包，啤酒4牛奶，鸡蛋，面包，爆米花，薯片，啤酒5鸡蛋，面包，薯片6鸡蛋，面包，啤酒7牛奶，面包，薯片8牛奶，鸡蛋，面包，黄油，薯片9牛奶，鸡蛋，黄油，薯片频繁1项集，记为F110FP-GROWTH算法原理-实例1-重新排序IDItems1牛奶，鸡蛋，面包，薯片2鸡蛋，爆米花，薯片，啤酒3牛奶，面包，啤酒4牛奶，鸡蛋，面包，爆米花，薯片，啤酒5鸡蛋，面包，薯片6鸡蛋，面包，啤酒7牛奶，面包，薯片8牛奶，鸡蛋，面包，黄油，薯片9牛奶，鸡蛋，黄油，薯片IDItems1薯片,鸡蛋,面包,牛奶2薯片,鸡蛋,啤酒3面包,牛奶,啤酒4薯片,鸡蛋,面包,牛奶,啤酒5薯片,鸡蛋,面包6鸡蛋,面包,啤酒7薯片,面包,牛奶8薯片,鸡蛋,面包,牛奶9薯片,鸡蛋,牛奶Step2:对每一条数据记录，按照F1重新排序。11FP-GROWTH算法原理-实例1-建立FP树IDItems1薯片,鸡蛋,面包,牛奶2薯片,鸡蛋,啤酒3面包,牛奶,啤酒4薯片,鸡蛋,面包,牛奶,啤酒5薯片,鸡蛋,面包6鸡蛋,面包,啤酒7薯片,面包,牛奶8薯片,鸡蛋,面包,牛奶9薯片,鸡蛋,牛奶Step3：把第二步重新排序后的记录，插入到fp-tree中Step3.1：插入第一条（第一步有一个虚的根节点）12FP-GROWTH算法原理-实例1-建立FP树IDItems1薯片,鸡蛋,面包,牛奶2薯片,鸡蛋,啤酒3面包,牛奶,啤酒4薯片,鸡蛋,面包,牛奶,啤酒5薯片,鸡蛋,面包6鸡蛋,面包,啤酒7薯片,面包,牛奶8薯片,鸡蛋,面包,牛奶9薯片,鸡蛋,牛奶Step3.2：插入第二条。根结点不管，然后插入薯片，在step3.1的基础上+1，则记为2；同理鸡蛋记为2；啤酒在step3.1的树上是没有的，那么就开一个分支。13FP-GROWTH算法原理-实例1-建立FP树IDItems1薯片,鸡蛋,面包,牛奶2薯片,鸡蛋,啤酒3面包,牛奶,啤酒4薯片,鸡蛋,面包,牛奶,啤酒5薯片,鸡蛋,面包6鸡蛋,面包,啤酒7薯片,面包,牛奶8薯片,鸡蛋,面包,牛奶9薯片,鸡蛋,牛奶Step3.3：插入第三条14FP-GROWTH算法原理-实例1-建立FP树IDItems1薯片,鸡蛋,面包,牛奶2薯片,鸡蛋,啤酒3面包,牛奶,啤酒4薯片,鸡蛋,面包,牛奶,啤酒5薯片,鸡蛋,面包6鸡蛋,面包,啤酒7薯片,面包,牛奶8薯片,鸡蛋,面包,牛奶9薯片,鸡蛋,牛奶同理，剩余记录依次插入fp-tree中。15FP-GROWTH算法原理-实例1-建立FP树图中左边的一列叫做头指针表，树中相同名称的节点要链接起来，链表的第一个元素就是头指针表里的元素。虚线连接起来的表示同一个商品，各个连接的数字加起来就是该商品出现的总次数。16FP-GROWTH算法原理-实例1-挖掘频繁项集Step4：从FP-Tree中找出频繁项集。遍历表头项中的每一项（以“牛奶：6”为例），从FP-Tree中找到所有的“牛奶”结点，向上遍历它的祖先结点，得到4条路径，如表所示。17FP-GROWTH算法原理-实例1-挖掘频繁项集Step4：从FP-Tree中找出频繁项集。对于每一条路径上的节点，其count都设置为牛奶的count（路径中最末尾的商品数）18FP-GROWTH算法原理-实例1-挖掘频繁项集Step4：从FP-Tree中找出频繁项集。因为每一项末尾都是牛奶，可以把牛奶去掉，得到条件模式基，此时的后缀模式是：牛奶。19FP-GROWTH算法原理-实例2 把例子简化一下，请看以下实例2TidItems1I1,I2,I52I2,I43I2,I34I1,I2,I45I1,I36I2,I37I1,I38I1,I2,I3,I59I1,I2,I320FP-GROWTH算法原理-实例2-统计频次先扫描数据库，统计所有商品的出现次数(频数)定义min_sup=2，按照频数递减排序，删除频数小于最小支持度的商品。重新排列得到频繁1-项目集FI1I2I3I4I567622I2I1I3I4I57662221FP-GROWTH算法原理-实例2-重新排序I27I16I36I42I52TidItems1I2,I1,I52I2,I43I2,I34I2,I1,I45I1,I36I2,I37I1,I38I2,I1,I3,I59I2,I1,I322FP-GROWTH算法原理-实例2-创建根结点和频繁项目表Item-nameNode-headI2NullI1NullI3NullI4NullI5NullNull23FP-GROWTH算法原理-实例2-加入第一个事务(I2,I1,I5)24FP-GROWTH算法原理-实例2-加入第二个事务(I2,I4)25FP-GROWTH算法原理-实例2-加入第三个事务(I2,I3)26FP-GROWTH算法原理-实例2-加入第四个事务(I2,I1,I4)27FP-GROWTH算法原理-实例2-加入第五个事务(I1,I3)28FP-GROWTH算法原理-实例2-加入第六个事务(I2,I3)29FP-GROWTH算法原理-实例2-加入第七个事务(I1,I3)30FP-GROWTH算法原理-实例2-加入第八个事务(I2,I1,I3,I5)31FP-GROWTH算法原理-实例2-加入第九个事务(I2,I1,I3)32FP-GROWTH算法原理-实例2-挖掘频繁项集首先考虑I5，得到条件模式基：、构造条件FP-Tree得到I5频繁项集：I2,I5,I1,I5,I2,I1,I533FP-GROWTH算法原理-实例2-挖掘频繁项集接着考虑I4，得到条件模式基：、构造条件FP-Tree得到I4频繁项集：I2,I434FP-GROWTH算法原理-实例2-挖掘频繁项集然后考虑I3，得到条件模式基：、构造条件FP-Tree由于此树不是单分支路径，因此需要递归挖掘I335FP-GROWTH算法原理-实例2-挖掘频繁项集递归考虑I3，此时得到I1条件模式基,即I1,I3的条件模式基为构造条件FP-Tree得到I3的频繁项目集I2,I3,I1,I3,I2,I1,I336FP-GROWTH算法原理-实例2-挖掘频繁项集最后考虑I1，得到条件模式基：构造条件FP-Tree得到I1的频繁项目集：I2,I137FP-GROWTH算法实现-数据处理项集e,m,q,s,t,y,x,zx,s,r,o,ns,u,t,w,v,y,x,zq,p,r,t,y,x,z h,r,z,p,jz格式化处理38代码实现-FP树数据结构39代码实现-构造FP树步骤40代码实现-构造FP树41代码实现-构造FP树42代码实现-构造FP树（updateTree函数）43代码实现-构造FP树（updateHeader函数）44代码实现-构造FP树（验证）45代码实现-挖掘频繁项集步骤从构建好的FP树中抽取频繁项集的步骤如下：(1)从FP树中获取条件模式基；(2)利用条件模式基，构建一个条件FP树；(3)迭代重复(1)(2)，直到树包含一个元素项为止。46条件模式基定义条件模式基是以所查找元素项为结尾的路径集合所查找元素项为结尾的路径集合。每一条路径其实都是一条前缀路径前缀路径。简而言之，一条前缀路径就是介于所查找元素项与树根节点之间的所有内容。每一个频繁项的所有前缀路径（条件模式基）：47代码实现-抽取条件模式基eg：t的第1条前缀路径prefixPath=t,s,y,x,z；48代码实现-抽取条件模式基49代码实现-抽取条件模式基（验证）50代码实现-创建条件FP树51代码实现-创建条件FP树52代码实现-运行53示例：从新闻网站点击流中挖掘新闻报道-数据格式54示例：从新闻网站点击流中挖掘新闻报道-代码在源数据集合中，包含将近100w条记录，该文件中的每一行代表某个用户浏览过的新闻报道。一些用户只看过一篇报道，而有些用户看过2498篇报道，用户和报道被编码成整数。55示例：从新闻网站点击流中挖掘新闻报道-结果56谢谢！演讲完毕，谢谢观看！

注意事项

本文（机器学习FPGROWTH算法PPT56页）为本站会员（沈***）主动上传，装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知装配图网（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。