数据挖掘导论稻谷文苑

上传人:沈*** 文档编号:152264222 上传时间:2022-09-15 格式:PPT 页数:46 大小:5MB
收藏 版权申诉 举报 下载
数据挖掘导论稻谷文苑_第1页
第1页 / 共46页
数据挖掘导论稻谷文苑_第2页
第2页 / 共46页
数据挖掘导论稻谷文苑_第3页
第3页 / 共46页
资源描述:

《数据挖掘导论稻谷文苑》由会员分享,可在线阅读,更多相关《数据挖掘导论稻谷文苑(46页珍藏版)》请在装配图网上搜索。

1、1实用参考1.1 数据挖掘的发展背景1.2 数据挖掘定义1.3 数据挖掘过程1.4 数据挖掘功能1.5 数据挖掘应用1.6 数据挖掘发展 2实用参考人类已进入一个崭新的信息时代,数据库中存储的数据量急剧膨胀 数据库急剧膨胀3实用参考大量信息在给人们带来方便的同时也带来了一大堆问题:n信息过量,难以消化n信息真假难以辨识n信息安全难以保证n信息形式不一致,难以统一处理4实用参考 数据爆炸但知识贫乏 随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的

2、发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。5实用参考进化阶段进化阶段商业问题商业问题支持技术支持技术产品厂家产品厂家产品特点产品特点数据搜集数据搜集(60(60年代年代)“过去五年中我的过去五年中我的总收入是多少?总收入是多少?”计算机、磁带和磁盘计算机、磁带和磁盘IBMIBMCDCCDC提供历史性的、静提供历史性的、静态的数据信息态的数据信息数据访问数据访问(80(80年代年代)“在新英格兰的分在新英格兰的分部去年三月的销售部去年三月的销售额是多少?额是多少?”关系数据库关系数据库(RDBMS)(RDBMS)结构化查询语言结构化查询语言(SQL)(SQL

3、)ODBCODBCOracleOracleSybaseSybaseInformixInformixIBMIBMMicrosoftMicrosoft在记录级提供历史在记录级提供历史性的、动态数据信性的、动态数据信息息数据仓库数据仓库决策支持决策支持(90(90年代年代)“在新英格兰的分在新英格兰的分部去年三月的销售部去年三月的销售额是多少?波士顿额是多少?波士顿据此可得出什么结据此可得出什么结论?论?”联机分析处理联机分析处理(OLAP)(OLAP)多维数据库多维数据库数据仓库数据仓库PilotPilotComshareComshareArborArborCognosCognosMicrostr

4、ategyMicrostrategy在各种层次上提供在各种层次上提供回溯的、动态的数回溯的、动态的数据信息据信息数据挖掘数据挖掘(正在流行)(正在流行)“下个月波士顿的下个月波士顿的销售会怎么样?为销售会怎么样?为什么?什么?”高级算法高级算法多处理器计算机多处理器计算机海量数据库海量数据库PilotPilotLockheedLockheedIBMIBMSGISGI其他初创公司其他初创公司提供预测性的信息提供预测性的信息6实用参考数据挖掘产生为了从海量数据库和大量繁杂信息中提取有价值的知识,进一步提高信息的利用率产生了一个新的研究方向:基于数据库的知识发现(Knowledge Discover

5、y in Database),以及相应的数据挖掘(Data Mining)理论和技术的研究(侯老师,胡博士,自己)(搞预测很有前途,邵伟华;易经,易学)数据矿山信息金块数据挖掘工具7实用参考KDD的出现基于数据库的知识发现(KDD)一词首次出现在1989年举行的第十一届AAAI学术会议上。1995年在加拿大蒙特利尔召开了第一届KDD国际学术会议(KDD95)。由Kluwers Publishers出版,1997年创刊的Knowledge Discovery and Data Mining是该领域中的第一本学术刊物。(计算机领域中国的顶级刊物:5个)8实用参考数据挖掘是从大量有噪声、不完全,甚至

6、不一致的数据中,利用相应的挖掘方法,提取其中存在有效、新奇、有用、可理解的知识模式,是统计学、数据库技术和人工智能技术的综合。与数据挖掘类似但稍有不同含义的术语有:从数据库中发现知识(Knowledge Discovery from/in Database,KDD)知识提取(Knowledge extract)数据/模式分析(Data/Model analysis)。数据考古数据捕捞9实用参考数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。10实用参考数据挖掘是一种新的商业信

7、息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。11实用参考人们给数据挖掘下过很多定义,内涵也各不相同,目前公认的定义是由Usama Fayyad等人提出的。所谓基于数据库的知识发现(KDD)是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的过程。12实用参考数据挖掘是一个反复迭代的人机交互处理过程。该过程需要经历多个步骤,并且很多决策需要由用户提供。从宏观上看,数据挖掘过程主要由三个部分组成,即问题定义、数据整理(包括数据收集、数据预处理、数据转换)、数据挖掘实施,以及挖掘结果的解释与评估。13实用

8、参考1)定义问题 要想充分发挥数据挖掘的价值,必须要对目标有一个清晰明确的定义,即决定到底想干什么。否则,很难得到正确的结果。14实用参考数据选择目标数据15实用参考数据目标数据预处理选择已处理数据16实用参考数据已处理数据目标数据预处理变换选择变换后数据17实用参考数据已处理数据变换后数据目标数据预处理变换选择数据挖掘模式/知识18实用参考数据已处理数据变换后数据模式/知识目标数据解释/评估预处理变换选择数据挖掘 知识19实用参考(例子:保险公司客户流失。p9)通过数据挖掘,人们可以预测未来趋势及行为,做出基于知识的决策;或是从数据库中发现隐含的、有意义的知识,主要有六类功能。(1)概念描述

9、(2)关联(3)聚类(4)分类(5)预测(6)偏差的检测20实用参考(1)概念描述概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。例如:21实用参考(2)关联数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。例如:每天买啤酒的人也有可能购买香烟,比重有多大,可以通过关联的支持度和可信度来描述。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因

10、此关联分析生成的规则带有可信度。以零售业为例,体育用品商场通过对销售数据进行关联分析通常可以发现这些数据中常常隐含形式如下的规律“购买篮球的顾客中有70%的人同时购买运动服,所有交易中有40%的人同时购买篮球和篮球运动服”等等。22实用参考(3)聚类 数据库中的记录可被化分为一系列有意义的子集,即聚类。例如:将申请人分为高度风险申请者、中度风险申请者、低度风险申请者。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。80年代初,Mchalski提出了概念聚类技术,其要点是,在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种

11、内涵描述,从而避免了传统技术的某些片面性。例如:帮助市场人员发现客户中的不帮助市场人员发现客户中的不同群体,然后用这些知识来开展一个目标明确的市场计划;同群体,然后用这些知识来开展一个目标明确的市场计划;对购买了汽车保险的客户,标识那些有较高平均对购买了汽车保险的客户,标识那些有较高平均赔偿成本的客户;赔偿成本的客户;23实用参考(4)分类 按照分析对象的属性、特征,建立不同组来描述事物。例如银行部门根据以前的数据将客户分成了不同类别,现在就可以根据这些来区分新申请贷款的客户,以采取相应的贷款方案。例如:把客户分为高风险客户和低风险客户 24实用参考(5)预测把握分析对象的发展规律,对未来的趋

12、势做出预见。数据挖掘自动在大型数据库中寻找预测性数据,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子:市场预测问题。数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。(例如,股票。从报表等预测其不久破产)25实用参考(6)偏差的检测数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。例如:在银行的100万笔交易中有500例的欺诈行为,银行为了稳健经营,就要发现这500例的内在因素,减少以后经营的风险。(如开始几次额度不大,信誉很好,突然一次额度很大)偏差包括很多潜在的知

13、识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。26实用参考数据挖掘的各项功能不是独立存在的,在数据挖掘中相互联系,发挥作用。27实用参考需要强调的是,数据挖掘技术从一开始就是面向应用的。目前,在很多领域,数据挖掘(data mining)都是一个很时髦的词,尤其是在如银行、电信、保险、交通、零售(如超级市场)等商业领域。而数据挖掘的应用则主要集中在以下几个领域:金融服务、市场营销、工程与科学研究、产品制造业、司法。28实用参考n电信:流失n银行:聚类(细分),交叉销售n百货公司/超市:购物篮

14、分析(关联规则)n保险:细分,交叉销售,流失(原因分析)n信用卡:欺诈探测,细分n电子商务:网站日志分析(提问)n税务部门:偷漏税行为探测n警察机关:犯罪行为分析n医学:医疗保健29实用参考英国电信需要发布一种新的产品,需要通过直邮的方式向客户推荐这种产品。使直邮的回应率提高了100电信30实用参考GUS日用品零售商店需要准确的预测未来的商品销售量,降低库存成本。通过数据挖掘的方法使库存成本比原来减少了3.8%零售商店31实用参考美国国内税务局需要提高对纳税人的服务水平。合理安排税务官的工作,为纳税人提供更迅捷、更准确的服务税务局32实用参考金融事务需要搜集和处理大量的数据,由于银行在金融领域

15、的地位、工作性质、业务特点以及激烈的市场竞争决定了它对信息化、电子化比其它领域有更迫切的要求。利用数据挖掘技术可以帮助银行产品开发部门描述客户以往的需求趋势,并预测未来。美国商业银行是发达国家商业银行的典范,许多地方值得我国学习和借鉴。(美国的老大地位)33实用参考美国银行家协会(ABA)预测数据仓库和数据挖掘技术在美国商业银行的应用增长率是14.9。分析客户使用分销渠道的情况和分销渠道的容量;建立利润评测模型;客户关系优化;风险控制等34实用参考Mellon银行使用数据挖掘软件提高销售和定价金融产品的精确度,如家庭普通贷款。美国Firstar银行使用数据挖掘工具,根据客户的消费模式预测何时为

16、客户提供何种产品。35实用参考汇丰银行需要对不断增长的客户群进行分类,对每种产品找出最有价值的客户。营销费用减少了30资料:一个数据挖掘的例子(1讲)银行36实用参考 A.数据挖掘的发展趋势n视频和音频数据挖掘n科学和统计数据挖掘n数据挖掘的应用探索n可伸缩的数据挖掘方法n数据挖掘与数据库系统、数据仓库和Web数据库系统的集成n数据挖掘语言的标准化n可视化数据挖掘n复杂数据类型挖掘的方法nWeb挖掘n数据挖掘中的隐私保护与信息安全37实用参考数据可视化数据挖掘结果可视化数据挖掘处理过程可视化交互式的可视化挖掘38实用参考39实用参考40实用参考41实用参考42实用参考当前,DM研究方兴未艾,其

17、研究与开发的总体水平相当于数据库技术在70年代所处的地位,迫切需要类似于关系模式、DBMS系统和SQL查询语言等理论和方法的指导,才能使DM的应用得以普遍推广。预计在本世纪,DM的研究还会形成更大的高潮,研究焦点可能会集中到以下几个方面:p 发现语言的形式化描述,即研究专门用于知识发现的数据挖掘语言,也许会像SQL语言一样走向形式化和标准化;p 寻求数据挖掘过程中的可视化方法,使知识发现的过程能够被用户理解,也便于在知识发现的过程中进行人机交互;43实用参考p研究在网络环境下的数据挖掘技术(Web Mining),特别是在因特网上建立DM服务器,并且与数据库服务器配合,实现Web Mining

18、;p 加强对各种非结构化数据的开采(Data Mining for AudioVideo),如对文本数据、图形数据、视频图像数据、声音数据乃至综合多媒体数据的开采;处理的数据将会涉及到更多的数据类型,这些数据类型或者比较复杂,或者是结构比较独特。为了处理这些复杂的数据,就需要一些新的和更好的分析和建立模型的方法,同时还会涉及到为处理这些复杂或独特数据所做的费时和复杂数据准备的一些工具和软件。p交互式发现;p知识的维护更新。44实用参考 网站的数据挖掘(Web site data mining)生物信息或基因(Bioinformatics/genomics)的数据挖掘(华工学生在自然发表论文http:/ mining)45实用参考46实用参考

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!