大数据时代的数据挖掘与商务智能培训课件PPT80张

上传人:无*** 文档编号:232094575 上传时间:2023-09-12 格式:PPT 页数:81 大小:1.58MB
收藏 版权申诉 举报 下载
大数据时代的数据挖掘与商务智能培训课件PPT80张_第1页
第1页 / 共81页
大数据时代的数据挖掘与商务智能培训课件PPT80张_第2页
第2页 / 共81页
大数据时代的数据挖掘与商务智能培训课件PPT80张_第3页
第3页 / 共81页
资源描述:

《大数据时代的数据挖掘与商务智能培训课件PPT80张》由会员分享,可在线阅读,更多相关《大数据时代的数据挖掘与商务智能培训课件PPT80张(81页珍藏版)》请在装配图网上搜索。

1、11大数据时代的数据挖掘与商务智能2第四部分第四部分数据管理与数据挖掘概论数据管理与数据挖掘概论3数据挖掘概况数据挖掘概况n n从从从从20202020世纪世纪世纪世纪80808080年代中后期,知识发现的方法、技年代中后期,知识发现的方法、技年代中后期,知识发现的方法、技年代中后期,知识发现的方法、技术和系统,从不同角度、不同领域和不同学科术和系统,从不同角度、不同领域和不同学科术和系统,从不同角度、不同领域和不同学科术和系统,从不同角度、不同领域和不同学科进行了研究和实践,进行了研究和实践,进行了研究和实践,进行了研究和实践,主要的学科有数据库、统主要的学科有数据库、统主要的学科有数据库、

2、统主要的学科有数据库、统计学和机器学习。计学和机器学习。计学和机器学习。计学和机器学习。n n1989198919891989年年年年 在底特律第在底特律第在底特律第在底特律第11111111届届届届IJCAIIJCAIIJCAIIJCAI会议上的会议上的会议上的会议上的KDDKDDKDDKDD研研研研讨会。讨会。讨会。讨会。1991199119911991年年年年MIT MIT MIT MIT 出版社出版了一本书出版社出版了一本书出版社出版了一本书出版社出版了一本书 “Knowledge Discovery in DatabasesKnowledge Discovery in Databas

3、esKnowledge Discovery in DatabasesKnowledge Discovery in Databases”。n n1994199419941994年召开了一个国际会议年召开了一个国际会议年召开了一个国际会议年召开了一个国际会议(KDD94),(KDD94),(KDD94),(KDD94),并于并于并于并于1996199619961996年由年由年由年由 MITMITMITMIT出版社又出版了一本书出版社又出版了一本书出版社又出版了一本书出版社又出版了一本书 “Advances in Knowledge Discovery and Advances in Knowle

4、dge Discovery and Advances in Knowledge Discovery and Advances in Knowledge Discovery and Data MiningData MiningData MiningData Mining”。4数据挖掘概况数据挖掘概况n n1995199519951995年在加拿大的蒙特利尔召开年在加拿大的蒙特利尔召开年在加拿大的蒙特利尔召开年在加拿大的蒙特利尔召开KDD95KDD95KDD95KDD95,作为第一,作为第一,作为第一,作为第一届国际届国际届国际届国际KDDKDDKDDKDD会议,以后每年一次,原为会议,以后每年一

5、次,原为会议,以后每年一次,原为会议,以后每年一次,原为AAAIAAAIAAAIAAAI组织,组织,组织,组织,1999199919991999年由年由年由年由ACMACMACMACM组织,改为组织,改为组织,改为组织,改为SIGKDDSIGKDDSIGKDDSIGKDD。2006200620062006年、第年、第年、第年、第12121212届届届届在美国费城(在美国费城(在美国费城(在美国费城(PhiladelphiaPhiladelphiaPhiladelphiaPhiladelphia)。)。)。)。2007200720072007年在美国加年在美国加年在美国加年在美国加州圣何塞(州圣

6、何塞(州圣何塞(州圣何塞(SIGKDD07SIGKDD07SIGKDD07SIGKDD07)2008 2008 2008 2008年在美国年在美国年在美国年在美国LAS VEGAS(LAS VEGAS(LAS VEGAS(LAS VEGAS(SIGKDD08SIGKDD08SIGKDD08SIGKDD08)。n n “Data Mining and Knowledge Discovery Data Mining and Knowledge Discovery Data Mining and Knowledge Discovery Data Mining and Knowledge Discov

7、ery”1997199719971997年创刊。年创刊。年创刊。年创刊。(SpringerSpringerSpringerSpringer,1997199719971997,2006200620062006)。)。)。)。n n国外相应的研究小组的建立,接着数据挖掘公司国外相应的研究小组的建立,接着数据挖掘公司国外相应的研究小组的建立,接着数据挖掘公司国外相应的研究小组的建立,接着数据挖掘公司风起云涌。一些大公司建立数据挖掘小组和开发风起云涌。一些大公司建立数据挖掘小组和开发风起云涌。一些大公司建立数据挖掘小组和开发风起云涌。一些大公司建立数据挖掘小组和开发各种产品。各种产品。各种产品。各种产

8、品。n n国内研究小组的建立,一些公司也开始了数据挖国内研究小组的建立,一些公司也开始了数据挖国内研究小组的建立,一些公司也开始了数据挖国内研究小组的建立,一些公司也开始了数据挖掘项目。掘项目。掘项目。掘项目。5数据挖掘概况数据挖掘概况n n数据挖掘是数据挖掘是数据挖掘是数据挖掘是20202020世纪世纪世纪世纪80808080年代后期发展起来的一种新兴年代后期发展起来的一种新兴年代后期发展起来的一种新兴年代后期发展起来的一种新兴n n技术。它是商业、企业竞争和技术发展的需求的结技术。它是商业、企业竞争和技术发展的需求的结技术。它是商业、企业竞争和技术发展的需求的结技术。它是商业、企业竞争和技

9、术发展的需求的结n n果,数据挖掘技术是多种学科的交叉的产物。果,数据挖掘技术是多种学科的交叉的产物。果,数据挖掘技术是多种学科的交叉的产物。果,数据挖掘技术是多种学科的交叉的产物。数据挖掘数据挖掘6数据挖掘任务数据挖掘任务n n数据挖掘任务技术分类数据挖掘任务技术分类预测(预测(预测(预测(PredicationPredicationPredicationPredication):用历史预测未来):用历史预测未来):用历史预测未来):用历史预测未来描述(描述(描述(描述(DescriptionDescriptionDescriptionDescription):了解数据中潜在的规律):了解数

10、据中潜在的规律):了解数据中潜在的规律):了解数据中潜在的规律n n数据挖掘的具体任务数据挖掘的具体任务关联分析关联分析关联分析关联分析序列模式序列模式序列模式序列模式分类(分类(分类(分类(预测预测预测预测)聚集聚集聚集聚集异常检测异常检测异常检测异常检测7数据挖掘任务数据挖掘任务n n描述性分析描述性分析描述性分析描述性分析 聚类分析聚类分析聚类分析聚类分析 关联分析关联分析关联分析关联分析 异常点分析、可视化异常点分析、可视化异常点分析、可视化异常点分析、可视化 n n预测性分析预测性分析预测性分析预测性分析 分类(离散)分类(离散)分类(离散)分类(离散)回归分析(连续)回归分析(连续

11、)回归分析(连续)回归分析(连续)时间序列分析时间序列分析时间序列分析时间序列分析 8数据挖掘概况数据挖掘概况数据挖掘技术基本内容框架数据挖掘技术基本内容框架n n数据预处理数据预处理数据预处理数据预处理(1 1)数据清理)数据清理)数据清理)数据清理(2 2)数据变换数据变换数据变换数据变换(3 3)数据集成)数据集成)数据集成)数据集成(4 4)数据归约)数据归约)数据归约)数据归约(5 5)数据离散化)数据离散化)数据离散化)数据离散化n n数据挖掘基本方法数据挖掘基本方法数据挖掘基本方法数据挖掘基本方法 (1 1 1 1)关联规则()关联规则()关联规则()关联规则(2 2 2 2)分

12、类与预测()分类与预测()分类与预测()分类与预测(3 3 3 3)聚类)聚类)聚类)聚类n n数据挖掘的深入内容数据挖掘的深入内容数据挖掘的深入内容数据挖掘的深入内容 (1 1 1 1)时间序列和序列()时间序列和序列()时间序列和序列()时间序列和序列(2 2 2 2)空间数据挖掘)空间数据挖掘)空间数据挖掘)空间数据挖掘 (3 3 3 3)文本挖掘)文本挖掘)文本挖掘)文本挖掘 (4 4 4 4)WebWebWebWeb挖掘挖掘挖掘挖掘 (5 5 5 5)多媒体挖掘)多媒体挖掘)多媒体挖掘)多媒体挖掘 (6 6 6 6)可视化)可视化)可视化)可视化9数据挖掘概况数据挖掘概况n n由于任

13、务不同,要求不同,数据不同,由于任务不同,要求不同,数据不同,没没有单一的数据挖掘软件可适用所有的情形有单一的数据挖掘软件可适用所有的情形。造成了各种方法都在快速发展,各种数据造成了各种方法都在快速发展,各种数据挖掘软件不断增多。但商家近年来有逐渐挖掘软件不断增多。但商家近年来有逐渐减少的趋势,大公司的介入,一些大的有减少的趋势,大公司的介入,一些大的有实力的公司开始更多占领市场。实力的公司开始更多占领市场。n n基本方法如上所述。软件功能和性能有很基本方法如上所述。软件功能和性能有很大差异。选软件应考虑的因素很多。大差异。选软件应考虑的因素很多。10数据挖掘概况数据挖掘概况 从问题回答的角度

14、:从问题回答的角度:1.1.有些问题可明确和准确回答(有些问题可明确和准确回答(有些问题可明确和准确回答(有些问题可明确和准确回答(要求这样要求这样要求这样要求这样)2.2.有些问题是给出可能的回答有些问题是给出可能的回答有些问题是给出可能的回答有些问题是给出可能的回答3.3.有些问题可能给出不太明确的回答有些问题可能给出不太明确的回答有些问题可能给出不太明确的回答有些问题可能给出不太明确的回答4.4.有些问题可能给出可能错误的回答。有些问题可能给出可能错误的回答。有些问题可能给出可能错误的回答。有些问题可能给出可能错误的回答。这些回答从数据的角度:这些回答从数据的角度:这些回答从数据的角度:

15、这些回答从数据的角度:有些是有些是有些是有些是查询查询查询查询,有些是,有些是,有些是,有些是统计统计统计统计,有些是,有些是,有些是,有些是归纳归纳归纳归纳,有些是,有些是,有些是,有些是推推推推断断断断,有些,有些,有些,有些预测预测预测预测,有些是,有些是,有些是,有些是分析分析分析分析。数据挖掘要回答那些不是简单查询和统计回答问数据挖掘要回答那些不是简单查询和统计回答问数据挖掘要回答那些不是简单查询和统计回答问数据挖掘要回答那些不是简单查询和统计回答问题。题。题。题。11数据挖掘概况数据挖掘概况无法准确回答的问题无法准确回答的问题n n信贷中信用评估,信用卡评级,信用卡欺诈信贷中信用评

16、估,信用卡评级,信用卡欺诈信贷中信用评估,信用卡评级,信用卡欺诈信贷中信用评估,信用卡评级,信用卡欺诈n n销售一个产品销售一个产品销售一个产品销售一个产品 广告广告广告广告 材料材料材料材料 邮寄给谁邮寄给谁邮寄给谁邮寄给谁n n保留客户保留客户保留客户保留客户,争取客户争取客户争取客户争取客户n n交叉销售交叉销售交叉销售交叉销售n n违规操作,欺诈行为发现,异常发现违规操作,欺诈行为发现,异常发现违规操作,欺诈行为发现,异常发现违规操作,欺诈行为发现,异常发现 n n货架货物的摆放货架货物的摆放货架货物的摆放货架货物的摆放n n国民经济各指标间的关系国民经济各指标间的关系国民经济各指标间

17、的关系国民经济各指标间的关系n n疾病疾病疾病疾病,症状症状症状症状,药物药物药物药物,疗效之间的关系疗效之间的关系疗效之间的关系疗效之间的关系n nDNADNADNADNA序列的相似分析序列的相似分析序列的相似分析序列的相似分析n n导致各种疾病的特定基因序列模式导致各种疾病的特定基因序列模式导致各种疾病的特定基因序列模式导致各种疾病的特定基因序列模式凭理论,经验,群体分析,凭数据分析,挖掘凭理论,经验,群体分析,凭数据分析,挖掘12数据挖掘概况数据挖掘概况各种部门都面临不同的挑战各种部门都面临不同的挑战n n一些面临竞争的部门与企业:一些面临竞争的部门与企业:银行,电信,保险,证券,商场,

18、各种企银行,电信,保险,证券,商场,各种企业。这些企业关心的问题:争取客户,增业。这些企业关心的问题:争取客户,增大销售,提高利润。大销售,提高利润。n n一些垄断部门与企业:一些垄断部门与企业:电力,税务,社保。面对抱怨,面对抗争,电力,税务,社保。面对抱怨,面对抗争,面对欺诈。面对欺诈。n n政府和企业面临科学决策政府和企业面临科学决策13数据挖掘概况数据挖掘概况数据仓库和数据挖掘项目提到日程数据仓库和数据挖掘项目提到日程n n数据分析、决策支持系统、商业智能数据分析、决策支持系统、商业智能(BIBI)、)、知识管理、客户关系管理知识管理、客户关系管理(CRM)(CRM)、物流与供应链管理

19、物流与供应链管理(SCM)(SCM)、企业资源计划、企业资源计划(ERP)(ERP)、各种预测。、各种预测。n n政府、科技部门、大型企业(工厂,公司,政府、科技部门、大型企业(工厂,公司,商场),经济部门、金融机构(银行、证商场),经济部门、金融机构(银行、证券、保险)、电子商务、电子政务、各种券、保险)、电子商务、电子政务、各种“金金”工程。工程。14数据挖掘概况数据挖掘概况n n数据仓库数据仓库 将不同数据源、多年的数据经将不同数据源、多年的数据经“整合整合”成成一个有组织的便于分析的结构化的数据环境。一个有组织的便于分析的结构化的数据环境。组织数据方法。组织数据方法。n n数据挖掘:数

20、据挖掘:从数据中找出(推出,归纳出,预测、挖从数据中找出(推出,归纳出,预测、挖掘)有用的信息,规律,知识。掘)有用的信息,规律,知识。分析数据方法。分析数据方法。15n n数据库集成:数据库集成:数据仓库技术数据仓库技术数据仓库技术数据仓库技术 所有的数据在物理上集中在一起所有的数据在物理上集中在一起所有的数据在物理上集中在一起所有的数据在物理上集中在一起 虚拟数据库技术虚拟数据库技术虚拟数据库技术虚拟数据库技术 数据表面上或者在逻辑上是集成在一起,然数据表面上或者在逻辑上是集成在一起,然数据表面上或者在逻辑上是集成在一起,然数据表面上或者在逻辑上是集成在一起,然而它们的物理存贮则是分散在而

21、它们的物理存贮则是分散在而它们的物理存贮则是分散在而它们的物理存贮则是分散在InternetInternetInternetInternet不同不同不同不同的数据服务器上的数据服务器上的数据服务器上的数据服务器上 数据挖掘概况数据挖掘概况16n n从两种数据库集成技术来看:从两种数据库集成技术来看:数据仓库技术实用于数据库变动不太频繁、数据仓库技术实用于数据库变动不太频繁、数据仓库技术实用于数据库变动不太频繁、数据仓库技术实用于数据库变动不太频繁、数据库中数据类型和使用方法比较接近的数据库中数据类型和使用方法比较接近的数据库中数据类型和使用方法比较接近的数据库中数据类型和使用方法比较接近的情况

22、。情况。情况。情况。虚拟数据库技术实用于数据更新速度快、虚拟数据库技术实用于数据更新速度快、虚拟数据库技术实用于数据更新速度快、虚拟数据库技术实用于数据更新速度快、数据类型和使用方法完全不一样的情况。数据类型和使用方法完全不一样的情况。数据类型和使用方法完全不一样的情况。数据类型和使用方法完全不一样的情况。数据挖掘概况数据挖掘概况17联机分析处理联机分析处理n n60606060年代,关系数据库之父年代,关系数据库之父年代,关系数据库之父年代,关系数据库之父E.F.CoddE.F.CoddE.F.CoddE.F.Codd提出了关系模型,促进了联机提出了关系模型,促进了联机提出了关系模型,促进了

23、联机提出了关系模型,促进了联机事务处理事务处理事务处理事务处理(OLTP)(OLTP)(OLTP)(OLTP)的发展的发展的发展的发展(数据以表格的形式而非文件方式存储数据以表格的形式而非文件方式存储数据以表格的形式而非文件方式存储数据以表格的形式而非文件方式存储)。1993199319931993年,年,年,年,E.F.CoddE.F.CoddE.F.CoddE.F.Codd提出了提出了提出了提出了OLAPOLAPOLAPOLAP概念,认为概念,认为概念,认为概念,认为OLTPOLTPOLTPOLTP已不能满足终端用已不能满足终端用已不能满足终端用已不能满足终端用户对数据库查询分析的需要,户

24、对数据库查询分析的需要,户对数据库查询分析的需要,户对数据库查询分析的需要,SQLSQLSQLSQL对大型数据库进行的简单查询也对大型数据库进行的简单查询也对大型数据库进行的简单查询也对大型数据库进行的简单查询也不能满足终端用户分析的要求。用户的决策分析需要对关系数据不能满足终端用户分析的要求。用户的决策分析需要对关系数据不能满足终端用户分析的要求。用户的决策分析需要对关系数据不能满足终端用户分析的要求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者库进行大量计算才能得到结果,而查询的结果并不能满足决策者库进行大量计算才能得到结果,而查询的结果并不能满足决

25、策者库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此,提出的需求。因此,提出的需求。因此,提出的需求。因此,E.F.CoddE.F.CoddE.F.CoddE.F.Codd提出了多维数据库和多维分析的概提出了多维数据库和多维分析的概提出了多维数据库和多维分析的概提出了多维数据库和多维分析的概念,即念,即念,即念,即OLAPOLAPOLAPOLAP。n n OLTPOLTP数据数据 OLAPOLAP数据数据n n 原始数据原始数据原始数据原始数据 导出数据导出数据导出数据导出数据n n 细节性数据细节性数据细节性数据细节性数据 综合性和提炼性数据综合性和提炼性数据综合性和

26、提炼性数据综合性和提炼性数据n n 当前值数据当前值数据当前值数据当前值数据 历史数据历史数据历史数据历史数据n n 可更新可更新可更新可更新 不可更新,但周期性刷新不可更新,但周期性刷新不可更新,但周期性刷新不可更新,但周期性刷新n n 一次处理的数据量小一次处理的数据量小一次处理的数据量小一次处理的数据量小 一次处理的数据量大一次处理的数据量大一次处理的数据量大一次处理的数据量大n n面向应用,事务驱动面向应用,事务驱动面向应用,事务驱动面向应用,事务驱动 面向分析,分析驱动面向分析,分析驱动面向分析,分析驱动面向分析,分析驱动n n面向操作人员,支持日常操作面向操作人员,支持日常操作面向

27、操作人员,支持日常操作面向操作人员,支持日常操作 面向决策人员,支持管理需要面向决策人员,支持管理需要面向决策人员,支持管理需要面向决策人员,支持管理需要18OLAP定义n nOLAP(OLAP(OLAP(OLAP(联联联联机机机机分分分分析析析析处处处处理理理理)是是是是使使使使分分分分析析析析人人人人员员员员、管管管管理理理理人人人人员员员员或或或或执执执执行行行行人人人人员员员员能能能能够够够够从从从从多多多多种种种种角角角角度度度度对对对对从从从从原原原原始始始始数数数数据据据据中中中中转转转转化化化化出出出出来来来来的的的的、能能能能够够够够真真真真正正正正为为为为用用用用户户户户所

28、所所所理理理理解解解解的的的的、并并并并真真真真实实实实反反反反映映映映企企企企业业业业维维维维特特特特性性性性的的的的信信信信息息息息进进进进行行行行快快快快速速速速、一一一一致致致致、交交交交互互互互地地地地存存存存取取取取,从从从从而而而而获获获获得得得得对对对对数数数数据据据据的的的的更更更更深深深深入入入入了了了了解解解解的的的的一一一一类软件技术。类软件技术。类软件技术。类软件技术。(OLAP(OLAP(OLAP(OLAP委员会的定义委员会的定义委员会的定义委员会的定义)n nOLAPOLAPOLAPOLAP的的的的目目目目标标标标是是是是满满满满足足足足决决决决策策策策支支支支持

29、持持持或或或或多多多多维维维维环环环环境境境境特特特特定定定定的的的的查查查查询询询询和和和和报报报报表表表表需需需需求求求求,它它它它的的的的技技技技术术术术核核核核心心心心是是是是“维维维维”这这这这个个个个概概概概念念念念,因因因因此此此此OLAPOLAPOLAPOLAP也也也也可可可可以以以以说说说说是是是是多多多多维维维维数数数数据据据据分分分分析析析析工工工工具具具具的集合。的集合。的集合。的集合。19数据仓库与数据挖掘所处地位数据仓库与数据挖掘所处地位决策支决策支持系统持系统OLAP数据挖掘数据挖掘数数 据据 仓仓 库库数数 据据 库库各种信息系统各种信息系统各种管理系统各种管理

30、系统搜索、抽取搜索、抽取过滤过滤万维网万维网信息发布信息发布信息检索信息检索ACRMCRM20数据挖掘发现知识类型数据挖掘发现知识类型n n 广义型知识:反映同类事物共同性质的知识广义型知识:反映同类事物共同性质的知识广义型知识:反映同类事物共同性质的知识广义型知识:反映同类事物共同性质的知识n n 特征型知识:反映事物各方面特征的的知识特征型知识:反映事物各方面特征的的知识特征型知识:反映事物各方面特征的的知识特征型知识:反映事物各方面特征的的知识n n 差异型知识:反映不同事物之间属性差别的知识差异型知识:反映不同事物之间属性差别的知识差异型知识:反映不同事物之间属性差别的知识差异型知识:

31、反映不同事物之间属性差别的知识n n 关联型知识:反映事物之间依赖和关联的知识关联型知识:反映事物之间依赖和关联的知识关联型知识:反映事物之间依赖和关联的知识关联型知识:反映事物之间依赖和关联的知识n n 偏差型知识:揭示事物偏离常规的异常现象的知识偏差型知识:揭示事物偏离常规的异常现象的知识偏差型知识:揭示事物偏离常规的异常现象的知识偏差型知识:揭示事物偏离常规的异常现象的知识n n 预测型知识:根据历史与当前数据推测未来数据预测型知识:根据历史与当前数据推测未来数据预测型知识:根据历史与当前数据推测未来数据预测型知识:根据历史与当前数据推测未来数据21(B)DataInformation(

32、A)Knowledge(Arrangement)(Transmit)(A)Knowledge transmitted by character,sign,voice,etc.(B)Data arranged to be useful for decision makingINFORMATION(Recognition)(C)Knowledge(C)Recognition memorized personally or socially(D)Judgment or a system of judgment which has objective validityKNOWLEDGE(D)Knowl

33、edge(Judgment)(D)Knowledge(Judgment)What is the energy to bring such transformation?(E)Computers ability to judge things automatically(F)Peoples ability to understand and learn thingsINTELLIGENCEInformation ScienceManagement ScienceKnowledge Science+Information,Knowledge,and Intelligence22A theory o

34、f organizational knowledge creation,which suggests that new knowledge is created by the interaction between explicit and tacit knowledge through the spiral of Socialization,Externalization,Combination,and Internalization.Shared mental modelsor technical skills1Metaphors,analogies,concepts,hypotheses

35、,or models2Linkingexplicitknowledge3Learning by doing4I.Nonaka and H.Takeuchi The Knowledge-Creating Company.How Japanese Companies Create the Dynamics of Innovation.Oxford University Press,1995.GroupexplicitknowledgeIndividual explicitknowledgeIndividualtacitknowledgeGrouptacitknowledgeCombinationI

36、nternalizationSocializationExternalizationKey Factor in Establishing the SchoolProf.Nonaka23应应 用用市场分析、预测和管理市场分析、预测和管理市场分析、预测和管理市场分析、预测和管理行销策略行销策略行销策略行销策略,客户关系管理客户关系管理客户关系管理客户关系管理(CRM),(CRM),(CRM),(CRM),购货篮分析购货篮分析购货篮分析购货篮分析,市场分割市场分割市场分割市场分割风险分析、预测和管理风险分析、预测和管理风险分析、预测和管理风险分析、预测和管理风险预警风险预警风险预警风险预警,客户挽留

37、客户挽留客户挽留客户挽留,改进的保险业改进的保险业改进的保险业改进的保险业,质量质量质量质量控制控制控制控制,竞争分析竞争分析竞争分析竞争分析欺诈检测和管理欺诈检测和管理欺诈检测和管理欺诈检测和管理证券违规操作,税务偷漏,瞒报,信用卡欺证券违规操作,税务偷漏,瞒报,信用卡欺证券违规操作,税务偷漏,瞒报,信用卡欺证券违规操作,税务偷漏,瞒报,信用卡欺诈行为判断诈行为判断诈行为判断诈行为判断信用评估信用评估信用评估信用评估银行信贷评估,信用卡评估银行信贷评估,信用卡评估银行信贷评估,信用卡评估银行信贷评估,信用卡评估24应应 用用宏观经济宏观经济宏观经济宏观经济(指标之间关联指标之间关联指标之间关

38、联指标之间关联,经济指标的预测经济指标的预测经济指标的预测经济指标的预测,预警预警预警预警)电信(客户细分,客户流失,客户挽留)电信(客户细分,客户流失,客户挽留)电信(客户细分,客户流失,客户挽留)电信(客户细分,客户流失,客户挽留)金融(信用评估,洗钱,欺诈金融(信用评估,洗钱,欺诈金融(信用评估,洗钱,欺诈金融(信用评估,洗钱,欺诈)情报(文本挖掘,新闻组情报(文本挖掘,新闻组情报(文本挖掘,新闻组情报(文本挖掘,新闻组,电子邮件电子邮件电子邮件电子邮件,文档文档文档文档)Web Web Web Web 挖掘(信息过滤挖掘(信息过滤挖掘(信息过滤挖掘(信息过滤,个性化服务,异常行为,个性

39、化服务,异常行为,个性化服务,异常行为,个性化服务,异常行为,)DNA DNA DNA DNA 数据分析(一些引起疾病的数据分析(一些引起疾病的数据分析(一些引起疾病的数据分析(一些引起疾病的DNADNADNADNA序列,序列,序列,序列,)人力资源配置(如何有效进行人力分配)人力资源配置(如何有效进行人力分配)人力资源配置(如何有效进行人力分配)人力资源配置(如何有效进行人力分配)医疗诊断医疗诊断医疗诊断医疗诊断中药配伍规律中药配伍规律中药配伍规律中药配伍规律零售业零售业零售业零售业科学(天气预报,灾难预测科学(天气预报,灾难预测科学(天气预报,灾难预测科学(天气预报,灾难预测25KDnug

40、getsKDnuggets对数据挖掘各种情况进行了调查对数据挖掘各种情况进行了调查n n从应用领域从应用领域n n使用工具使用工具n n使用方法使用方法n n数据挖掘组的地位数据挖掘组的地位n n数据库的大小(数据库的大小(10G10G以上,以上,100-1000G)100-1000G)n n数据格式(文本和工具特定格式居多)数据格式(文本和工具特定格式居多)26银行银行 17%17%生物生物/基因基因 8%8%E E商务商务/Web 15%/Web 15%欺诈检测欺诈检测 8%8%保险保险 6%6%投资投资/股票股票 4%4%药品药品 5%5%零售业零售业 6%6%科学数据科学数据 8%8%

41、电信电信 11%11%其他其他 11%11%应用领域情况(应用领域情况(2001)27应应应应用用用用领领领领域域域域情情情情况况况况 2 20 00 06 628应用领域情况(应用领域情况(2008)170voters29数据挖掘软件数据挖掘软件(May 2008)347voters30数据挖掘软件数据挖掘软件(May2008)2012年年R以以30.7%的得票率荣登榜首的得票率荣登榜首3132从技从技术看数据挖掘使用技看数据挖掘使用技术情况情况784votestotal(Feb2005)784votestotal(Feb2005)Decision Trees/Rules(107)Decis

42、ion Trees/Rules(107)决策树决策树决策树决策树 14%14%Clustering(101)Clustering(101)聚类聚类聚类聚类 13%13%Regression(90)Regression(90)回归回归回归回归 11%11%Statistics(80)Statistics(80)统计统计统计统计 10%10%Visualization(63)Visualization(63)可视化可视化可视化可视化 8%8%Neural Nets(61)Neural Nets(61)神经网络神经网络神经网络神经网络 8%8%Association rules(54)Associa

43、tion rules(54)关联规则关联规则关联规则关联规则 7%7%Nearest Neighbor(34)Nearest Neighbor(34)最近邻最近邻最近邻最近邻 4%4%SVM(Support vector machine)(31)SVM(Support vector machine)(31)支持向量机支持向量机支持向量机支持向量机 4%4%Bayesian(30)Bayesian(30)贝叶斯贝叶斯贝叶斯贝叶斯 4%4%Sequence/Time series analysis(26)Sequence/Time series analysis(26)序列序列序列序列/时间序列分

44、析时间序列分析时间序列分析时间序列分析 3%3%Boosting(25)Boosting(25)增强增强增强增强 3%3%Hybrid methods(23)Hybrid methods(23)混合方法混合方法混合方法混合方法 3%3%Bagging(20)Bagging(20)袋装袋装袋装袋装 3%3%Genetic algorithms(19)Genetic algorithms(19)遗传算法遗传算法遗传算法遗传算法 2%2%Other(20)Other(20)其他其他其他其他 3%3%33数据挖掘任务类型数据挖掘任务类型(Dec 2007)170voters34数据类型数据类型(Sep

45、 2008)35数据挖掘系统的典型架构数据挖掘系统的典型架构数据仓库数据仓库数据清理与数据集成数据清理与数据集成过滤过滤数据库数据库数据库、数据仓库管理系统数据库、数据仓库管理系统数据库、数据仓库管理系统数据库、数据仓库管理系统数据挖掘引擎数据挖掘引擎数据挖掘引擎数据挖掘引擎模型、模式评价模型、模式评价模型、模式评价模型、模式评价可视化用户界面可视化用户界面可视化用户界面可视化用户界面数据挖掘数据挖掘方法库方法库其它数据源其它数据源用户用户用户用户知识库知识库World-WideWebOtherInfoRepositories36算算法法层层商商业业逻逻辑辑层层行行业业应应用用层层商业应用商业

46、应用商业模型商业模型挖掘算法挖掘算法相关行业相关行业综合的数据挖掘解决方案(复旦)综合的数据挖掘解决方案(复旦)综合的数据挖掘解决方案(复旦)综合的数据挖掘解决方案(复旦)371.1.业务分析业务分析Data SourceData Source 2.2.数据收集与整理数据收集与整理3 3 数据分析与处理数据分析与处理4.4.财务指标展示财务指标展示6.6.数据挖掘结果的数据挖掘结果的解释和展示解释和展示7.7.系统建设系统建设8.8.尝试应用尝试应用5.5.数据挖掘建模数据挖掘建模商业银行客户违约模型建立商业银行客户违约模型建立38数据挖掘在我国的前景数据挖掘在我国的前景国外数据挖掘已相当普遍

47、,各大数据库公司与典型产国外数据挖掘已相当普遍,各大数据库公司与典型产国外数据挖掘已相当普遍,各大数据库公司与典型产国外数据挖掘已相当普遍,各大数据库公司与典型产品(品(品(品(IBM,Oracle,Microsoft)IBM,Oracle,Microsoft)SPSS,SAS,BOSPSS,SAS,BO国内情况如何:国内情况如何:国内情况如何:国内情况如何:n n应用普遍性?应用普遍性?应用普遍性?应用普遍性?n n对其相信程度?对其相信程度?对其相信程度?对其相信程度?n n制约的因素?制约的因素?制约的因素?制约的因素?(市场规范程度?(市场规范程度?(市场规范程度?(市场规范程度?消费

48、者成熟程度?消费者成熟程度?消费者成熟程度?消费者成熟程度?人为因素程度人为因素程度人为因素程度人为因素程度?)国内尚处发展阶段,(周期长,效益不明显,数据积国内尚处发展阶段,(周期长,效益不明显,数据积国内尚处发展阶段,(周期长,效益不明显,数据积国内尚处发展阶段,(周期长,效益不明显,数据积累不够,人的认识程度,累不够,人的认识程度,累不够,人的认识程度,累不够,人的认识程度,)39为什么没有广泛使用?为什么没有广泛使用?n n数据挖掘正在快速的发展数据挖掘正在快速的发展数据挖掘正在快速的发展数据挖掘正在快速的发展技术的研究和开发已经走在很前沿的地方技术的研究和开发已经走在很前沿的地方技术

49、的研究和开发已经走在很前沿的地方技术的研究和开发已经走在很前沿的地方数据挖掘应用面已经扩充了很多数据挖掘应用面已经扩充了很多数据挖掘应用面已经扩充了很多数据挖掘应用面已经扩充了很多n n但是仍然没有希望的高,为什么?但是仍然没有希望的高,为什么?但是仍然没有希望的高,为什么?但是仍然没有希望的高,为什么?希望在多少年内达到数十亿元的盈利?希望在多少年内达到数十亿元的盈利?希望在多少年内达到数十亿元的盈利?希望在多少年内达到数十亿元的盈利?是一种增值服务(是一种增值服务(是一种增值服务(是一种增值服务(Not bread-and-butterNot bread-and-butterNot bre

50、ad-and-butterNot bread-and-butter)不能认为高不可攀,所以不去过问不能认为高不可攀,所以不去过问不能认为高不可攀,所以不去过问不能认为高不可攀,所以不去过问是一门年轻的技术,需要和实际结合,解决是一门年轻的技术,需要和实际结合,解决是一门年轻的技术,需要和实际结合,解决是一门年轻的技术,需要和实际结合,解决现实问题现实问题现实问题现实问题40数据挖掘数据挖掘国内应用存在的问题国内应用存在的问题n n数据积累不充分、不全面数据积累不充分、不全面n n业务模型构建困难业务模型构建困难n n缺少有经验的实施者缺少有经验的实施者41数据挖掘的方法论数据挖掘的方法论42知

51、识发现(知识发现(KDD)的过程)的过程43 1.1.1.1.数据的选择与抽样数据的选择与抽样数据的选择与抽样数据的选择与抽样 根据用户的需要从数据库中选择或抽样一部分数据根据用户的需要从数据库中选择或抽样一部分数据根据用户的需要从数据库中选择或抽样一部分数据根据用户的需要从数据库中选择或抽样一部分数据。2.2.2.2.数据预处理数据预处理数据预处理数据预处理 (1 1 1 1)数据的过滤:除噪声去冗余)数据的过滤:除噪声去冗余)数据的过滤:除噪声去冗余)数据的过滤:除噪声去冗余 (2 2 2 2)数据的添补)数据的添补)数据的添补)数据的添补 (3 3 3 3)数据归约与约简)数据归约与约简

52、)数据归约与约简)数据归约与约简 3.3.3.3.数据转换:数据转换:数据转换:数据转换:数据转换的主要目的是消减数据维数或维数缩减数据转换的主要目的是消减数据维数或维数缩减数据转换的主要目的是消减数据维数或维数缩减数据转换的主要目的是消减数据维数或维数缩减 4.4.4.4.数据挖掘:挖掘方法的使用数据挖掘:挖掘方法的使用数据挖掘:挖掘方法的使用数据挖掘:挖掘方法的使用 5.5.5.5.结果的评价结果的评价结果的评价结果的评价 (1 1 1 1)可视化表示)可视化表示)可视化表示)可视化表示 (2 2 2 2)解释)解释)解释)解释 (3 3 3 3)知识的使用)知识的使用)知识的使用)知识的

53、使用 6.6.6.6.循环循环循环循环44KDD过程过程n n数据挖掘数据挖掘:KDD:KDD过程的核心。过程的核心。DataCleaningDataIntegrationDatabasesDataWarehouseTask-relevantDataSelectionDataMiningPatternEvaluation45数据挖掘的方法论数据挖掘的方法论有许多数据挖掘的方法论,比较典型有有许多数据挖掘的方法论,比较典型有n nCRISP-DM(CrossIndustryStandardProcessforDataMining)n nSAS提出的数据挖掘方法论提出的数据挖掘方法论SEMMA(S

54、ample,Explore,Modify,ModelAccess)n nIBM提出的通用数据挖掘方法提出的通用数据挖掘方法(Thegenericdataminingmethod)46数据挖掘的方法论数据挖掘的方法论KDnugets调查情况:调查情况:各组织机构、公司、个人进行数据挖掘各组织机构、公司、个人进行数据挖掘时使用的方法论时使用的方法论(Aug2007)47CRISP-DMNCRSPSS等公司提供等公司提供CRISP-DM(跨行业(跨行业数据挖掘标准)数据挖掘方法论实现。数据挖掘标准)数据挖掘方法论实现。主要包括以下六个主要环节:主要包括以下六个主要环节:1.1.问题(业务)理解问题(

55、业务)理解(BusinessUnderstanding)2.2.数据理解数据理解(DataUnderstanding)3.3.数据准备数据准备(DataPreparation)4.4.建立模型建立模型(Modeling)5.5.模型评估模型评估(Evaluation)6.6.方案实施方案实施(Deployment)48CRISP-DM1.1.业务业务问题问题理解(理解(BusinessUnderstanding)要解决哪类问题:要解决哪类问题:要解决哪类问题:要解决哪类问题:在数据挖掘之前,收集与该项目在数据挖掘之前,收集与该项目在数据挖掘之前,收集与该项目在数据挖掘之前,收集与该项目有关的信

56、息,确定数据挖掘要解决哪类问题。并把有关的信息,确定数据挖掘要解决哪类问题。并把有关的信息,确定数据挖掘要解决哪类问题。并把有关的信息,确定数据挖掘要解决哪类问题。并把要解决的问题转化为数据挖掘问题。要解决的问题转化为数据挖掘问题。要解决的问题转化为数据挖掘问题。要解决的问题转化为数据挖掘问题。资源的评估:资源的评估:资源的评估:资源的评估:硬件资源,软件资源,数据资源,硬件资源,软件资源,数据资源,硬件资源,软件资源,数据资源,硬件资源,软件资源,数据资源,人力资源(管理人员,业务人员,技术人员)人力资源(管理人员,业务人员,技术人员)人力资源(管理人员,业务人员,技术人员)人力资源(管理人

57、员,业务人员,技术人员)数据评估:数据评估:数据评估:数据评估:数据数量,数据质量评估。数据数量,数据质量评估。数据数量,数据质量评估。数据数量,数据质量评估。项目成功估计:项目成功估计:项目成功估计:项目成功估计:成功后的效益,相应人员(分成功后的效益,相应人员(分成功后的效益,相应人员(分成功后的效益,相应人员(分 析、维护)的增加。析、维护)的增加。析、维护)的增加。析、维护)的增加。49如:一个电信领域的数据挖掘项目如:一个电信领域的数据挖掘项目问题可为:问题可为:n n 一些优质客户有什么特征?一些优质客户有什么特征?n n 哪些是不良客户,他们有什么特征?哪些是不良客户,他们有什么

58、特征?n n 在欠费客户中,哪些是恶意的欠费,在欠费客户中,哪些是恶意的欠费,哪些是善意的欠费。哪些是善意的欠费。n n 哪些客户可能会有最好的潜力?哪些客户可能会有最好的潜力?n n 通过什么样的标准来细分客户?通过什么样的标准来细分客户?n n 如何来衡量客户带来的价值?如何来衡量客户带来的价值?n n 哪些是高价值客户?如何去保住他们。哪些是高价值客户?如何去保住他们。50CRISP-DM2.理解数据(理解数据(DataUnderstanding)n n从哪里进行数据的收集从哪里进行数据的收集n n数据来源有那些数据来源有那些n n各数据源数据描述:格式,含义各数据源数据描述:格式,含义

59、n n数据质量数据质量n n外来数据有那些外来数据有那些n n对数据的含义一定要有深刻的理解才有对数据的含义一定要有深刻的理解才有可能从中找出(挖掘)规律和知识。可能从中找出(挖掘)规律和知识。51CRISP-DM3.准备数据(准备数据(DataPreparation)n n数据选择数据选择n n数据清理数据清理n n数据重构数据重构n n数据整合数据整合n n规格化:定出范围规格化:定出范围n n标准化:解决不一致标准化:解决不一致数据准备会占用整个项目数据准备会占用整个项目50%以上时间以上时间52CRISP-DM4.建立模型(建立模型(Modeling)n n数据汇总数据汇总n n概念描

60、述概念描述n n关联规则关联规则n n相关分析相关分析n n分类与预测分类与预测n n聚类聚类53CRISP-DM5.方案评估(方案评估(Evaluation)n n挖掘结果(获得知识的)挖掘结果(获得知识的)评估评估n n挖掘过程的评估挖掘过程的评估n n来决定是否要反复,来决定是否要反复,KDD是迭代过程是迭代过程54迭代过程迭代过程55CRISP-DM6.6.方案实施方案实施(Deployment)(Deployment)n n发布挖掘结果(获得知识的)发布挖掘结果(获得知识的)评估评估n n决定实施计划决定实施计划Crisp-DM1.0CRISP-DM 2.0 SIG WORKSHOP

61、 ANNOUNCEDCHICAGO,SEPTEMBER 26,2006 56CRISP-DMCRISP-DM各阶段占用时间和重要性各阶段占用时间和重要性1%1%1%1%10%10%10%10%方案实施方案实施方案实施方案实施5%5%5%5%10-20%10-20%10-20%10-20%建立模型和建立模型和建立模型和建立模型和模型评估模型评估模型评估模型评估 15%15%15%15%50%50%50%50%数据准备数据准备数据准备数据准备5%5%5%5%10-20%10-20%10-20%10-20%数据理解数据理解数据理解数据理解70%70%70%70%10%10%10%10%问题理解问题理

62、解问题理解问题理解占项目成功的重要性占项目成功的重要性占项目成功的重要性占项目成功的重要性花费时间花费时间花费时间花费时间57数据挖掘需要的人员数据挖掘需要的人员 n n业务分析人员:要求精通业务,能够解释业务分析人员:要求精通业务,能够解释业务对象,并根据各业务对象确定出用于业务对象,并根据各业务对象确定出用于数据定义和挖掘算法的业务需求。数据定义和挖掘算法的业务需求。n n数据分析人员:精通数据分析技术,并对数据分析人员:精通数据分析技术,并对统计学有较熟练的掌握,有能力把业务需统计学有较熟练的掌握,有能力把业务需求转化为数据挖掘的各步操作,并为每步求转化为数据挖掘的各步操作,并为每步操作

63、选择合适的技术。操作选择合适的技术。n n数据管理人员:精通数据管理技术,并从数据管理人员:精通数据管理技术,并从数据库或数据仓库中收集数据。数据库或数据仓库中收集数据。58数据挖掘软件数据挖掘软件59数据挖掘软件的现状(国外)数据挖掘软件的现状(国外)DataMining/AnalyticSoftwareTools534 voters(May2007)60数据挖掘软件的现状(国内)数据挖掘软件的现状(国内)n n大部分处于科研阶段大部分处于科研阶段大部分处于科研阶段大部分处于科研阶段各大学和科研机构从事数据挖掘算法的研究各大学和科研机构从事数据挖掘算法的研究各大学和科研机构从事数据挖掘算法的

64、研究各大学和科研机构从事数据挖掘算法的研究n n有一些公司在国外产品基础上开发的特定的应用有一些公司在国外产品基础上开发的特定的应用有一些公司在国外产品基础上开发的特定的应用有一些公司在国外产品基础上开发的特定的应用IBM Intelligent MinerIBM Intelligent MinerIBM Intelligent MinerIBM Intelligent MinerSAS Enterprise MinerSAS Enterprise MinerSAS Enterprise MinerSAS Enterprise Minern n自主知识产权的数据挖掘软件自主知识产权的数据挖掘软

65、件自主知识产权的数据挖掘软件自主知识产权的数据挖掘软件61数据挖掘软件的发展数据挖掘软件的发展代代特征特征数据挖掘算法数据挖掘算法集成集成分布计算分布计算模型模型数据模型数据模型第一第一代代作为一个独作为一个独立的应用立的应用支持一个或者支持一个或者多个算法多个算法 独立的系统独立的系统单个机器单个机器向量数据向量数据第二第二代代和数据库以和数据库以及数据仓库及数据仓库集成集成多个算法:能多个算法:能够挖掘一次不够挖掘一次不能放进内存的能放进内存的数据数据数据管理系数据管理系统,包括数统,包括数据库和数据据库和数据仓库仓库同质、局同质、局部区域的部区域的计算机群计算机群集集有些系统支持有些系统

66、支持对象对象,文本和文本和连续的媒体数连续的媒体数据据第三第三代代和预测模型和预测模型系统集成系统集成 多个算法多个算法数据管理和数据管理和预测模型系预测模型系统统intranet/extranet网网络计算络计算支持半结构化支持半结构化数据和数据和webweb数数据据第四第四代代和移动数据和移动数据/各种计算设各种计算设备的数据联备的数据联合合 多个算法多个算法数据管理、数据管理、预测模型、预测模型、移动系统移动系统移动和各移动和各种计算设种计算设备备普遍存在的计普遍存在的计算模型算模型 RobertGrossman的观点的观点(NationalCenterforDataMining,UniversityofIllinoisatChicago)62数据挖掘软件的发展数据挖掘软件的发展第一代数据挖掘软件第一代数据挖掘软件n特点特点支持一个或少数几个数据挖掘算法支持一个或少数几个数据挖掘算法 挖掘向量数据(挖掘向量数据(vector-valued datavector-valued data)数据一般一次性调进内存进行处理数据一般一次性调进内存进行处理 典型的系统如典型的系统如Salfo

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!