商务智能-数据挖掘原理

上传人:沈*** 文档编号:119139475 上传时间:2022-07-13 格式:PPTX 页数:41 大小:967.36KB
收藏 版权申诉 举报 下载
商务智能-数据挖掘原理_第1页
第1页 / 共41页
商务智能-数据挖掘原理_第2页
第2页 / 共41页
商务智能-数据挖掘原理_第3页
第3页 / 共41页
资源描述:

《商务智能-数据挖掘原理》由会员分享,可在线阅读,更多相关《商务智能-数据挖掘原理(41页珍藏版)》请在装配图网上搜索。

1、数据挖掘原理数据挖掘原理赵卫东 博士复旦大学软件学院What is Data Mining?What is Data Mining?nAccording to the Gartner Group,Data mining is the process of discovering meaningful new correlations,patterns and trends by sifting through large amounts of data stored in repositories,using pattern recognition technologies as well a

2、s statistical and mathematical techniques.nData mining refers to the work of discovering new and useful(business)knowledge from large real databases through a non-trivial process and using a sound methodology and multiple data processing and analytical techniques.nExamples:nDetect taxation fraud:not

3、 declaring all income for taxation;nFrom the thousands of mobile phone customers,predict which customers are going to switch to a competitor.数据挖掘受多学科的影响数据挖掘受多学科的影响 n数据挖掘是一个交叉科学领域,受多个学科影响,包括数据库系统、统计、机器学习、可视化和信息科学。一个比较正式的数据挖掘的定义一个比较正式的数据挖掘的定义n高层次上的主动式自动发现方法,被称为发现驱动型知识发现。高层次上的主动式自动发现方法,被称为发现驱动型知识发现。n从数

4、据中提取正确的、有用的、未知的和综合的信息正确的、有用的、未知的和综合的信息并用它进行决策的过程。n数据挖掘的相关学科是统计理论、数据库技术和人工智能。n前Business Objects的Todd Rowe曾表示:“从技术上讲,甚至只要有完备的Excel数据就能用上BI。”过程过程n数据挖掘并不是一个装在软件包装盒中的工具可以简单的买到并运行在商业智能环境中,也不会自动开始产生值得注意的商业规律。正确的正确的n提取的信息应该是正确的,并且在统计上是重要的以支持有依据的决定。正确意味着确证性和完整性。不但需要从数据库中得到正确的客户,还希望得到所有正确的客户。这就需要原始数据和数据挖掘过程都具

5、有正确性。有用的有用的n数据挖掘过程可能会传递正确的和重要的结果,但是这些知识必须是对商业有用的。如结果告诉你要在一个大量的渠道上多样化市场运作,这可能会无法办到。同样结果必须使你能抢在竞争对手之前行动。未知的未知的n数据挖掘要产生新的信息。如果过程只是传递一些无关紧要的结果,那么数据挖掘的商业动力就会消失。这就是区分验证和探索的性质。最小要求最小要求n以上显示了数据挖掘最小要求,可以用它来评价数据挖掘是否对业务环境增加了附加的价值n其他要求Why Data Mining?Why Data Mining?nGain an insight into business datanIdentify

6、useful patterns,correlations and models from data automatically to answer questions like,nWhich customer is likely to churn in two months?nWhich customer is my cross sell target?nWhat are the characteristics of my high spending and low spending customers?nData mining is a core technology of business

7、 intelligencenData mining is a core application of data warehousesnData mining is the core technology of analytical CRMnData mining is the core technology of online recommendation and personalization in e-commercenData mining has become a part of business function in many companiesData mining is reg

8、ularly used in nVerification-driven data mining tools extract data.The user is expected to generate information based on his interpretation of the returned data.New Process With Data MiningNew Process With Data MiningnDiscovery-drivennComputer sifts through millions of hypotheses and only presents t

9、he most interesting/valid onesnExample:nFrom a sample group of clients that have defected to a competitive bank-identify client characteristics that are strongly correlated,and using these attributes,score the rest of the client and prospect population and the strength of their relationships to samp

10、le group.What Can Data Mining Do?What Can Data Mining Do?nClassification and EstimationnPrediction nForecastingnClustering and SegmentationnAssociation DiscoverynDescription and visualizationMarket Based Analysis and Up-Selling/Cross-SellingPharmaceutical Industry:Drug Effectiveness by Patient TypeD

11、efect Analysis in ManufacturingUniversity and Employee RecruitmentEmployee Turnover PredictionsCreditRiskDeterminationCreditCardFraudCustomer Grouping and Behaviour Prediction数据挖掘过程数据挖掘过程占70%的工作量,是最重要的阶段占25%的工作量原 始 数据 库目 标 数据预 处 理后 数 据部 署数 据 挖掘 结 果抽 取预 处 理数 据 挖 掘评 估定 义 业 务问 题数 据 预 处 理(占 70%工 作 量)数 据

12、 建 模(占 25%工 作 量)结 果 分 析系统演示Effort DistributionEffort DistributionCRISPDM is an iterative,adaptive process.IBM Intelligent MinerIBM Intelligent Miner可视化界面可视化界面AlphaMinerAlphaMiner界面界面数据挖掘过程是循环的过程数据挖掘过程是循环的过程n上图会容易造成一个线性过程的印象。n事实上,每一步的结果会导致这样一个结论:需要从前几步中得到更多的信息,并不断重复这一过程。这些循环保证了最后的结果是完全为业务量身定制的。业务分析业务

13、分析n理想化地,公司中的所有活动都在不同程度上通过策略和商业目标与公司的任务描述相关。数据挖掘使你能够比以前在更高的层次上控制你的目标。n业务分析涉及到领域专家和挖掘专家。n前者专心于规定商业需求,而后者从数据挖掘的观点上保证这些要求的可行性,并且具体说明满足这些要求所需的挖掘操作。数据分析数据分析n为了研究使用统计方法的数据,可能有必要清理数据,添入缺损的值,或者从几个系统中将数据整合起来。n数据分析将会对以后步骤中必须的数据转换提供一个初步的了解,比如数据清理和整合。可能也会指出获取外部的信息是必要的,比如说日常商业运作中并不需要的顾客人口统计数据。n在这一步中涉及到的角色是挖掘专家,他们

14、执行大部分的任务,还有数据库管理员,他们将通过提供数据的访问权限来支持这些活动。数据准备数据准备n当挖掘所需的数据可供使用时,往往需要在真正进行挖掘前做一些准备工作。对于是否需要做这些准备工作,大部分在数据分析步骤中进行评估。数据质量数据质量n数据显示出一些特定的值,叫做偏离点,它们远离预期的正常范围。n这些值可用多种方法来处理:n如果它们仍在现实中存在的话,对这些数据取对数可以将它们转化到较小的范围。n否则可以将包含这些值的记录除去,或者将所有记录中的相关属性除去。空缺值空缺值n一个更常见的问题是空缺值。n此外,有些记录的值可能空缺,或者某一个属性可能会有大量的空缺值。n对第一种情况,可以不

15、使用这些记录;n对第二种情况,可以丢弃这个属性。猜测空缺值猜测空缺值n另一种处理空缺值的方法是归咎(imputation)。可以用几种技术来猜测空缺值,下面是一些相关技术,复杂度逐渐增加:n从别的记录中随机抽取一个值添入。n取其他记录中对应属性的最频值,中间数或平均数。n对其他记录中这个属性的值分布做一个统计模型,然后根据分布情况,随机选一个值。n试图用统计或挖掘技术从相似记录的值中预估空缺值。数据预处理数据预处理 数据中的不一致性数据中的不一致性n数据挖掘能够有效地处理数据中的不一致性。即使源数据是干净的、整合的和经过验证的,它们仍有可能包含现实世界的不真实的数据。n有效认识和解决数据质量相

16、关问题的唯一办法,就是企业对内部处理流程进行监视、分析和报告。n美国硬盘生产商Maxtor公司的首期信息长官斯考特.海卡尔说“商务智能最大的困难在于需要确保用于总结性分析和仪表板中的最底层的数据永远干净、一致并相关。我们需要数据仓库具备自我治疗能力,能够自动地感应、侦查、通告和维修任何不正确、缺失或未经核对的数据因素。但这至少需要一到两年才会发生。”噪声噪声n这种噪声可能是由用户的错误输入或是顾客填写问卷时的笔误造成的。如果这些错误不是发生的太频繁,数据挖掘工具还是能够忽略它们,并且找出数据中存在的整体模式。脏数据形成的原因脏数据形成的原因n滥用缩写词n数据输入错误n不同的惯用语(如:ASAP

17、对“at first chance”)n重复记录n丢失值n拼写变化n不同的计量单位n过时的编码数据清洗数据清洗(客户数据客户数据)Maggie.klinefuture_ Margaret Smith-Kline phdFUTURE Electronics 5/23/03101 6th avemanhattanny10012001124367Salutation:Ms.First name:MargaretLast name:Smith-KlinePostname:Ph.D.Match standards:Maggie,Peg,PeggyGender:Strong FemaleCompany n

18、ame:Future ElectronicsAddress 1:101 Avenue of the AmericasCity:New YorkState:NYZIP+4:10013-1933Email:maggie.klinefuture_SSN:001-12-4367Date May 23,2003输入记录输入记录输出记录输出记录Ms Margaret Smith-Kline Ph.D.Future Electronics101 Avenue of the AmericasNew York NY 10013-1933maggie.klinefuture_May 23,2003姓名:Ms.Ma

19、rgaret Smith-Kline Ph.D.公司名:Future Electronics Co.LLC社会保障号:001-12-4367购买日期:5/23/2003地址:101 Avenue of the AmericasNew York,NY 10013-1933纬度:40.722970经度:-74.005035Fed code:36061电话:(222)922-9922Email:maggie.klinefuture_输入纪录输入纪录合并的纪录合并的纪录Maggie SmithFuture Electronics Co.LLC101 6th Ave.Manhattan,NY 10012

20、maggie.klinefuture_001-12-4367Ms.Peg KlineFuture Elect.Co.101 6th Ave.New York NY 10013001-12-4367(222)922-99225/23/03匹配和合并数据清理处理内容数据清理处理内容v格式标准化v异常数据清除v错误纠正v重复数据的清除属性间的相互依赖性属性间的相互依赖性n数据挖掘将会同时从不同角度来看待数据。这就防止了把某些自身看起来好像不相关的属性丢弃的情况。n数据挖掘将会发现属性间的相互依赖性,这些相互依赖性往往需要提取数据中的所有相关信息,甚至是隐藏在多个属性的组合中。结果解释结果解释n对结果

21、的解释完全依赖于数据挖掘步骤的可视化输出。n对结果的解释需要挖掘专家和领域专家的紧密合作。他们一起将技术的结果解释为商业的意义,并且评价从这些结果中得出结论的正确性。n当结果从技术上来说是正确的,但对商业上来说并不意味着任何有价值的东西的时候,有必要进行迭代。商业应用商业应用n一个例子就是预测所有客户中的可创造高利润的群体,必须决定如何去接近这些客户,同时还要决定如何判断他们是否像模型预测的那样能带来利润。n领域专家依靠对挖掘结果解释中的信息,来支持商业应用的决定。在小公司中,领域专家可能就是决策者,但通常来说,决策者往往是一些顾问。n 如果领域专家对决策是否为挖掘结果所支持不是很确定,或者他和实际决策者中有任何的误解,都需要回复到结果解释阶段。商业反馈商业反馈n商业环境中的结果被反馈到商业智能环境中,并和数据挖掘模型的输出一起做分析。比如说,假设你邮寄活动的预测回复与实际回复作一个比较。当你试图了解是什么因素使得你对某些客户的预测出现错误时,可能会引发一轮新的数据挖掘过程。演讲完毕,谢谢观看!

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!