决策支持系统与商务智能学习报告材料——Apriori算法

上传人:桂梅 文档编号:153652805 上传时间:2022-09-19 格式:DOCX 页数:21 大小:420.15KB
收藏 版权申诉 举报 下载
决策支持系统与商务智能学习报告材料——Apriori算法_第1页
第1页 / 共21页
决策支持系统与商务智能学习报告材料——Apriori算法_第2页
第2页 / 共21页
决策支持系统与商务智能学习报告材料——Apriori算法_第3页
第3页 / 共21页
资源描述:

《决策支持系统与商务智能学习报告材料——Apriori算法》由会员分享,可在线阅读,更多相关《决策支持系统与商务智能学习报告材料——Apriori算法(21页珍藏版)》请在装配图网上搜索。

1、冏 重庆邮电大学 小组成员:2009214089+2009214109黄飞+ 谭皓目录目录1 .背景22 .目的32.1 Apriori算法32.2应用领域43 .设计方案63.1数据库设计63.2 系统设计(举例说明) 63.3系统设计算法思路(关键问题解决方法) 84 .系统运行效果展示 104.1 系统运行主界面 104.2参数设置运行界面 104.3路径设置运行界面 114.3.1 路径设置主界面 1.1.4.3.2浏览按钮效果图 1.14.3.3注意按钮界面124.4数据库导入运行效果图 .134.4.1 数据库导入主界面 1.34.4.2编辑数据库运行效果 .1.34.4.3关闭数

2、据库记录运行效果 1.44.5显示分析结果运行效果 .154.5.1显示分析结果主界面 154.5.2保存分析结果运行效果 1.64.5.3分析结果完全效果 1.74.5.4关闭分析结果运行效果 1.74.6文件菜单效果展示 184.7设置菜单效果展示 184.8帮助菜单效果展示 194.9关于对话框运行效果 195 .心的体会20A 善旦1 .冃景近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛的用于各种应用,包括商务管理、生产控制、市场分析、工程设计和科学探索等。数据挖掘,在人工智能领

3、域,习惯上又称为数据库中的知识发现(Knowledge Discovery in Database, KDD), 也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现 过程由以下三个阶段组成:(1)数据准备,(2)数据挖掘,(3)结果表达和解释。数据挖掘可以与用户或知识库交互。经过长时 间的发展,数据挖掘产生了一系列的算法,其中以十大经典算法为最,分别是 C4.5、The K-means algorithm (即 K-Means 算 法)、Support vetor machines 、The Apriori algorithm 、最大 期望(EM )算法、PageRank、Ada

4、Boost、kNN:K-mearest neighbor classification、Na?ve Bayes CART:分类与回归树。2 .目的2.1 Apriori 算法本软件系统是对数据掘Apriori算法的功能实现。该算法的基本 思想是:首先找出所有的频集,这些项集出现的频繁性至少和预 定义的最小支持度一样。然后由频集产生强关联规则,这些 规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每 一条规则的右部只有一项,这里采用的是中规则的定义。一旦这 些规则被生成,那么只有那些大于用户给定的最小可信度的规则 才被留下来。为了生成

5、所有频集,使用了递推的方法。2.2应用领域经典的关联规则数据挖掘算法Apriori算法广泛应用于各种领域,通过对数据的关联性进行了分析和挖掘,挖掘出的这些信 息在决策制定过程中具有重要的参考价值。Apriori算法广泛应用于商业中,应用于消费市场价格分析中,它能够很快的求出各种产品之间的价格关系和它们之间的影响。 通过数据挖掘,市场商人可以瞄准目标客户,采用个人股票行市、最新信息、特殊的市场推广活动或其他一些特殊的信息手段,从 而极大地减少广告预算和增加收入。百货商场、超市和一些老字 型大小的零售店也在进行数据挖掘,以便猜测这些年来顾客的消 费习惯。Apriori算法应用于网络安全领域,比如时

6、候入侵检测技术中。早期中大型的电脑系统中都收集审计信息来建立跟踪档,这些审 计跟踪的目的多是为了性能测试或计费,因此对攻击检测提 供的有用信息比较少。它通过模式的学习和训练可以发现网络用 户的一场行为模式。采用作用度的Apriori算法削弱了 Apriori算法的挖掘结果规则,是网络入侵检测系统可以快速的发现用户 的行为模式,能够快速的锁定攻击者,提高了基于关联规则的入 侵检测系统的检测性。Apriori算法应用于高校管理中。随着高校贫困生人数的不断 增加,学校管理部门资助工作难度也越加增大。针对这一现象, 提出一种基于数据挖掘算法的解决方法。将关联规则的Apriori算法应用到贫困助学体系中

7、,并且针对经典Apriori挖掘算法存在的不足进行改进,先将事务数据库映射为一个布尔矩阵,用一 种逐层递增的思想来动态的分配内存进行存储,再利用向量求与运算,寻找频繁项集。实验结果表明,改进后的Apriori算法在运行效率上有了很大的提升,挖掘出的规则也可以有效地辅助 学校管理部门有针对性的开展贫困助学工作。Apriori算法被广泛应用于移动通信领域。移动增值业务逐 渐成为移动通信市场上最有活力、最具潜力、最受瞩目的业务。 随着产业的复苏,越来越多的增值业务表现出强劲的发展势头, 呈现出应用多元化、营销品牌化、管理集中化、合作纵深化的特 点。针对这种趋势,在关联规则数据挖掘中广泛应用的Apri

8、ori算法被很多公司应用。依托某电信运营商正在建设的增值业务 Web数据仓库平台,对来自移动增值业务方面的调查数据进行了 相关的挖掘处理,从而获得了关于用户行为特征和需求的间接反 映市场动态的有用信息,这些信息在指导运营商的业务运营和辅 助业务提供商的决策制定等方面具有十分重要的参考价值。3 设计方案3.1数据库设计为了设计的简单性和方便性,本系统使用Microsoft OfficeExcel 97-2003版本作为数据库,数据库的设计格式如表3-1所示记录号所购物品清单1啤酒、尿布,婴儿爽身粉,面包,雨伞2尿布,婴儿爽身粉3啤酒、尿布,牛奶4尿布,啤酒,洗衣粉5啤酒,牛奶,可乐饮料表3-13

9、.2 系统设计(举例说明)一个超级市场的销售系统记录了顾客购物的情况。表3-2中记录了 5个顾客的购物单。记录号所购物品清单1啤酒、尿布,婴儿爽身粉,面包,雨伞2尿布,婴儿爽身粉3啤酒、尿布,牛奶4尿布,啤酒,洗衣粉5啤酒,牛奶,可乐饮料表3-2超市经理想知道商品之间的关联, 要求列出那些同时购买的、且支持度40% (即在5行中至少出现两次)的商品名称。 KDD系统通过特定算法(例如著名的 Apriori(验证)算法及或改进算法)多次扫描数据库,依次得出如表3和表4。其中支持度2/5的项,如单项的面包,雨伞和 双项中的尿布,牛奶等等已经略去,三项统计为空,其中只有啤酒,尿布,牛奶出现了一次(表

10、3-2中3号记录),支持 度小于40%,略去。单项统计支持度啤酒4/5尿布4/5婴儿爽身粉2/5牛奶2/5双项统计支持度啤酒,尿布3/5啤酒,牛奶2/5尿布,婴儿爽身粉2/5表3-3表3-4从单项统计中看出80%的顾客买了啤酒、80%的顾客买了尿布。从双项统计中看出,60%的顾客同时买了啤酒和尿布,40%的顾客买 了啤酒和牛奶,40%的顾客买了尿布和爽身粉。还可观察到买了啤酒 顾客中又买了尿布的占0.6啤酒,尿布/0.8啤酒=75% (称为置信 度)。于是可得出下列六条规则,其中:s为支持度,c为置信度。R1 :啤酒-尿布,S=60% , C=0.6/0.8=75%R2 :尿布啤酒,S=60%

11、 , C=0.6/0.8=75%R3 :牛奶啤酒,S=40% , C=0.4/0.4=100%R4 :啤酒牛奶,S=40% , C=0.4/0.8=50%R5 :尿布爽身粉。S=40% , C=0.4/0.8=50%R6:婴儿爽身粉尿布。S=40% , C=0.4/0.4=100%KDD规则反映了物品之间的表面联系,不一定是现实世界的因果关系。规则是死的,人是活的,运用之妙成乎于人。例如,R6 “婴儿爽身粉尿布”有很高的置信度,是合理可理解的,R3有很高的置信度将提示进一步的调查分析,本例中是因为训练资料太少引起的 失真。3.3系统设计算法思路(关键问题解决方法)首先我们从数据库中提取出所购物

12、品清单这一列的所有数据,保存在一个字符串类型的数组strArray中,数组当中的每一个元素就 是每一条记录。因为每一条记录当中不可能只有一种商品,根据没两种商品之间的分隔符,例如“,”、“,”、“、”等等,我们提取出每一 条记录中的每一种商品,把这种商品作为每一个元素,我们存储在新 定义的数组allCommodity 当作,此时,allCommodity 当中每一个 元素也就是每一个候选项。那么如何能够得到每一个候选项的支持度 呢?创建一个哈希表hashTable来解决如上问题,把候选项作为哈 希表的key值,然后value值为1添加到哈希表当中,如此循环, 每一种商品重复添加时,也就是key

13、值相同的时候,我们不添加,而 把value值加1,至U最后,成功的获取到每一种出现的商品所购买的 总次数。用这个总的次数除以数据库中购买的总记录条数,也就是数组allCommodity 的长度,这个值即为支持度。通过预先设定的最 小支持度值,筛选出符合要求的候选项集,如表3-3。以此类推,我们能够得到满足最小支持度的多个候选项集,如表3-4。然后利用置信度排除掉不满足要求的项集,即可得出各种商品 之间的强关联规则。如 R1、R2、R3所示。R1 :啤酒-尿布,S=60% , C=0.6/0.8=75%R2 :尿布啤酒,S=60% , C=0.6/0.8=75%R3 :牛奶啤酒,S=40% ,

14、C=0.4/0.4=100%214 系统运行效果展示4.1系统运行主界面4.2参数设置运行界面交牛(F)谡叠旧目导X克擔丈*4.3路径设置运行界面4.3.1路径设置主界面4.3.2浏览按钮效果图31曲罰迅審下或.bir ob.Properties修改曰期咼2011/11/26 4:15丈作2011/11/2-41S:28丈住来2Q11/117茨斗 24M 紀rs eft EaccI .更勺计茸机京ib据(co a本他蛊(d:j 也娅离向) L衿曲恶护)文性g(N: datdhase.xkMicros oft Excel 支(时433注意按钮界面測宜(E)警吉:务必注争三置力涯库右丈件悻巨栏式如

15、下:记录号闔买时1哥所购皎吕清单共用尋弼(元)00120110101弼r面包2500220110152鸡里r ffiSIS4.4数据库导入运行效果图 4.4.1数据库导入主界面4.4.2编辑数据库运行效果G吃站衣审匚,曲汴更阳*Z B * |却黑-三三三三圭由”护-|JETF353C28T A歸殆-娶JL吏令崔AB1?33QLL1101耳芒,尿韦,丄20120111101环恬r 1胞疋,济215mu ioi|:Ti.牛扩,可乐煌22inmioi邂可.屈布.涉儿我可粉,0.甫232452320111101 am moi 20111101尿和StL頁島耳甘,尿韦牛耳右.展布.姜儿更日卜,11包.f

16、FSt20111101尿辰,聾儿頁有2?M111101耳!坦,斥舟,丄抚301111012?i: H 1咆Th厉冇.靈儿黑叼対,而風,瓦30120111101用和环布泸L取呵右,而且*可爲22011110132330L11101瑋琶,尿祐,牛33I20111101电看,贰心.嬰儿页冃上,工已,TL.w i事 NShsvilStisfl t.2Sire3 ,如| 4.4.3关闭数据库记录运行效果4.5显示分析结果运行效果4.5.1显示分析结果主界面4.5.2保存分析结果运行效果K空面1ShF耳 FFBf1r71 V/j寻M昴又柞c?B删L1-叵才2畑jusi;姜儿mw粗 dC- 100HJ于.7

17、Z巻乐入计国.1=1=4 忆:rj5uHuargF-e .忙T?斗三Wje氐 d*?4.5.3分析结果完全效果1L1LWifc ff* E*!1 *.iU4-a*fl. 3*- s.jtl* 5.a 丄鲁土JI 23补IF Tf h-M弓.RBS JE. JSL.S=i-二沁OMIfti if. jhi*呼皿FBI恤員iJi石.;乩!?杓可 1-B.M-5-艺三 弓丄筑耳门=:鼻号,&:宅耳* TE:HJS二勺空長空壬b 孑=;圮匸工三SE二*B*. Br.lUlk-_- 7耳吕坯k1M;f4:L AiJk.#. .!#-*1 6 Ji tt W t * :- 255_就 p.鼻口=豐 VM2

18、:亠岸专 e = ti a; = i -HM-N*rbHjp fr注冒.-=耳吐證聲*blJ*- T fl-fte 3S-A-j|4W. ifn9弓._*m3LL耆 ?-*M4*Iff” fl.i JU!*iZJir* .L=i*. *SP_.母中 JSflV 可B F皿*二#* XjJLIV04V. S*TP 4 F4孔Id*=二乩 fl 鼻” ?E- F*- *r.iUQr:=gr SL& K皿申2?* JEjJLJ?3wW 还宜r iE- HIt - =Fi弐可.H=Br ia. B- .tg ?.Y2S 士S*Tr 4f=!县曹鼻d. _t,T 直土 呵童:S霍生曲.?.:*貫*沱程潺

19、廈町凳笳汩 =sti=:te d f 珥柄gx-=r v.亍晶店盒心爭二芝主nt *=v.i=*lr=T.a 4.5.4关闭分析结果运行效果4.6文件菜单效果展示4.7设置菜单效果展示4.8帮助菜单效果展示4.9关于对话框运行效果5 心的体会课程设计是培养学生综合运用所学知识,发现、提出、分析和解 决实际问题,锻炼实践能力的重要环节,是对学生实际工作能力的具 体训练和考察过程。随着经济发展的日新月异,对数据的分析处理也 越来越重要。数据挖掘已经成为当今空前活跃的领域, 在生活中可以 说得是无处不在。因此作为二十一世纪的大学来说掌握数据挖掘的开 发技术是十分重要的。回顾起此次课程设计,至今我仍感

20、慨颇多。的确,从选题到定稿, 从理论到实践,在整整两星期的日子里,可以说得是苦多于甜,但是 可以学到很多很多的东西,同时不仅可以巩固了以前所学过的知识, 而且学到了很多在书本上所没有学到过的知识。通过这次课程设计使 我懂得了理论与实际相结合是很重要的, 只有理论知识是远远不够的, 只有把所学的理论知识与实践相结合起来, 从理论中得出结论,才能 真正为社会服务,从而提高自己的实际动手能力和独立思考的能力。 在设计的过程中遇到问题,可以说得是困难重重,这毕竟第一次做的, 难免会遇到过各种各样的问题,同时在设计的过程中发现了自己的不 足之处,对以前所学过的知识理解得不够深刻,掌握得不够牢固。通 过这次课程设计之后,一定把以前所学过的知识重新温故。这次课程设计终于顺利完成了,在设计中遇到了很多编程问题, 最后在邓维斌老师的辛勤指导下,终于游逆而解。同时,在邓老师的 身上我学得到很多实用的知识,在次我表示感谢!同时,对给过我帮助的所有同学和各位指导老师再次表示忠心的感谢!2011年12月9日星期五黄飞,谭皓

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!