尿布与啤酒与数据挖掘技术

上传人:1777****777 文档编号:37213627 上传时间:2021-11-02 格式:DOC 页数:16 大小:96.50KB
收藏 版权申诉 举报 下载
尿布与啤酒与数据挖掘技术_第1页
第1页 / 共16页
尿布与啤酒与数据挖掘技术_第2页
第2页 / 共16页
尿布与啤酒与数据挖掘技术_第3页
第3页 / 共16页
资源描述:

《尿布与啤酒与数据挖掘技术》由会员分享,可在线阅读,更多相关《尿布与啤酒与数据挖掘技术(16页珍藏版)》请在装配图网上搜索。

1、尿布与啤酒与数据挖掘技术 数据的含义很广,不仅指321、897这样一些数字,还指abc、李明、96/10/11等符号、字符、日期形式的数据。我们讨论的数据是指存放在计算机系统中的任何东西,如:数字、字符、声音、图像、照片、等等,甚至处理数据的计算机程序本身也作为计算机的数据。随着国民经济和社会信息化的发展,人们在计算机系统中存放的数据量越来越大。我们发现这些数据是人们工作、生活和其他行为的记录,是企业和社会发展的记录,也是人与自然界本身的描述。这就是说在计算机系统中形成了庞大的数据资源。因此,发现这些数据所含的规律也就是发现我们工作、生活和社会发展中的规律,发现人与自然界的规律,就相当于在数据

2、资源中发现金矿。这就是数据资源的开发利用,是非常有价值的工作。而数据挖掘是目前最先进的数据资源开发利用技术。 1、什么是数据挖掘 我们先来看一个数据挖掘的故事, 尿布与啤酒的故事是关于数据挖掘最经典和流传最广的故事。 总部位于美国阿肯色州的世界著名商业零售连锁企业沃尔玛(Wal Mart)拥有世界上最大的数据仓库系统。为了能够准确了解顾客在其门店的购买习惯,沃尔玛利对其顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛数据仓库里集中了其各门店的详细原始交易数据。在这些原始交易数据的基础上,沃尔玛利用NCR数据挖掘工具对这些数据进行分析和挖掘。一个意外的发现是:跟尿布一起购

3、买最多的商品竟是啤酒! 这是数据挖掘技术对历史数据进行分析的结果,反映数据内在的规律。那么这个结果符合现实情况吗?是否是一个有用的知识?是否有利用价值? 于是,沃尔玛派出市场调查人员和分析师对这一数据挖掘结果进行调查分析。经过大量实际调查和分析,揭示了一个隐藏在尿布与啤酒背后的美国人的一种行为模式:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。 既然尿布与啤酒一起被购买的机会很多,于是沃尔玛就在其一个个门店将尿布与啤酒并排

4、摆放在一起,结果是尿布与啤酒的销售量双双增长。 按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的。 那么数据挖掘是什么样的技术呢? 数据挖掘是从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从各种数据源中选取和集成用于数据挖掘的数据;规律寻找是用某种方法将数据中的规律找出来;规律表示是用尽可能符合用户习惯的方式(如可视化)将找出的规律表示出来。 但在具体实施数据挖掘应用时,还要有一个步骤就是结果评价。这是因为数据算法寻找出来的是数据的规律,其中有些是人们感兴趣的有用的,还有一些

5、可能是不感兴趣的没有用的。这就要对寻找出的规律进行评估。例如:跟尿布一起购买最多的商品是啤酒这样一条规律是否有用呢?这就需要市场调查和评估工程师根据实际情况做出评估判断。这是一个人工步骤,还难以自动化。 数据挖掘在自身发展的过程中,吸收了数理统计、数据库和人工智能中的大量技术。数据挖掘分为描述性和预测性两类。描述性数据挖掘提供数据的一般规律;预测性数据挖掘产生关于数据的预测。数据挖掘的主要内容有: 关联分析:寻找数据项之间感兴趣的关联关系。例如:我们可以通过对交易数据的分析可能得出86%买啤酒的人同时也买尿布这样一条啤酒和尿布之间的关联规则。 演变分析:描述时间序列数据随时间变化的数据的规律或

6、趋势,并对其建模。包括时间序列趋势分析、周期模式匹配等。例如:通过对交易数据的演变分析,可能会得到89%情况股票X上涨一周左右后,股票Y会上涨这样一条序列知识。 聚类分析:根据最大化类内的相似性、最小化类间的相似性的原则将数据对象聚类或分组,所形成的每个簇(聚类)可以看作一个数据对象类,用显式或隐式的方法描述它们。也就是我们常说的物以类聚人以群分。 分类分析:找出描述并区分数据类的模型(可以是显式或隐式),以便能够使用模型预测给定数据所属的数据类。例如:信用卡公司可以将持卡人的信誉度分类为:良好、普通和较差三类。分类分析通过对这些数据类的分析给出一个信誉等级的显式模型:信誉良好的持卡人是年收入

7、在30000元到50000元之间,年龄在30至45岁之间,居住面积达90M2 左右的人。这样对于一个新的持卡人,就可以根据他的特征预测其信誉度。 异常分析:一个数据集中往往包含一些特别的数据,其行为和模式与一般的数据不同,这些数据称为异常。对异常数据的分析称为异常分析。它在欺诈甄别、网络入侵检测等领域有着广泛的应用。 2、数据挖掘与数理统计差异 数理统计和数据挖掘有着共同的目标:发现数据中的规律。并且,有许多数据挖掘工作还用了数理统计的算法或模型,还有,一些市场上所谓的数据挖掘工具软件却是统计软件或是从统计软件演变过来的。正因为如此,二者就成了最混淆的概念。我们认为二者在做法上是有很大不同的。

8、 手工与计算机 由于统计学基础的建立在计算机的发明之前,所以许多统计学方法是可以手工实现的。对于很多统计学家来说,几百个数据或几十个变量就已经是很大的了。但这个大对于现在计算机中GB级的交易记录或几千万个客户信息来说相差太远了。很明显,面对这么多的数据,设计原则上可以用手工实现的统计方法和设计原则上有计算机数据仓库支持的数据挖掘方法是有很大不同的,很多统计模型和算法在处理大数据量时可能就会失去意义。这意味这计算机对于数据的分析和处理是关键的,而手工直接处理数据将变得不可行。 用样本推断总体规律与直接找出总体的规律 用样本推断总体规律是统计学的核心方法之一,而数据挖掘由于采用了计算机技术更关注对

9、总体规律的分析。当然,数据挖掘也常常关注样本。 例如我们的数据库中有某厂历年生产的1000万台电视机和对应1000万个客户的全部信息。在这种情形下,用样本构造某种模型或某个估计值来推断1000万台电视机的使用情况就没有价值了,我们可以通过数据挖掘直接找出总体的规律。 但在一些预测性分析中,数据挖掘也常常使用样本。例如:对一个新产品的广告宣传活动进行响应率分析。对1000万人做该广告,实际应该有10万人响应。但通过一个样本分析发现:其中有三类人群对该广告的响应率较高。因此,就有针对性地对高响应率的100万人做了该广告,结果获得了8万人的响应。 普遍规律与特定规律 统计学研究问题的结果常常会得到一

10、个统计模型,而这个模型是普遍适用的,而数据挖掘得到的是某个数据集的规律,常常不具有普遍意义。例如:掷硬币出现正反面的概率都是50%。但在某个赌场,一年中每天掷出硬币,其正面出现的次数在68%-93%之间,统计学中正反面出现的概率是50%的推断在这样一个总体中就没有价值了。 模型和实验 由于数学背景,统计学追求精确,建立一个模型并证明之,而不是象数据挖掘那样注重实验。这并不意味着数据挖掘工作者不注重精确,而只是说明如果精确的方法不能产生结果的话就会被放弃。例如:证券公司的一个业务回归模型可能会把保证金作为一个独立的变量,因为一般认为大的保证金会导致大的业务,所以花费高成本开设了大户室。但事实上经

11、过对一年来的交易情况进行数据挖掘却发现:交易频度和赢利情况才是最重要的。 说明:虽然有上述的差异,很多时候我们仍然可以这样说:将很多数理统计算法或模型写成计算机程序并能够用于大规模数据分析就变成了数据挖掘技术。 3、数据挖掘技术研究 首先出现的术语是知识发现(Knowledge Discovery in Database,KDD)而不是数据挖掘。后来的相关学术会议也大都以KDD为名,个别使用数据挖掘和知识发现,但在数据库领域和工业界一直使用数据挖掘。在这一节,我们分别介绍数据挖掘研究、数据挖掘系统和数据挖掘应用的发展状况,并且在数据挖掘研究介绍中同时使用数据挖掘和知识发现术语。知识发现(KDD

12、)一词首次出现在1989年8月举行的第11届国际联合人工智能学术会议上。随着KDD在学术界和工业界的影响越来越大,国际KDD组委会于1995年把专题讨论会更名为国际会议,在加拿大蒙特利尔市召开了第一届KDD国际学术会议,以后每年召开一次。迄今为止,由美国人工智能协会主办的KDD国际研讨会已经召开了7次(见表),规模由原来的专题讨论会发展到国际学术大会,人数由二三十人到七八百人,论文收录比例从2X1到6X1,研究重点也逐渐从发现方法转向系统应用,并且注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。其他内容的专题会议也把数据挖掘和知识发现列为议题之一,成为当前计算机科学界的一大热点。 表

13、:历届数据挖掘讨论会议(备注:从95年更名为国际会议) 时间 会议名称 会议地址 收录论文比例数 参加会议人数 19898 Workshop on KDD-1989 Detroit,Michigan,USA 2:1 30 19917 Workshop on KDD-1991 Anaheim,California,USA 3.5:1 46 19937 Workshop on KDD-1993 Washington,USA 3:1 40 19947 Workshop on KDD-1994 Seattle, Washington, USA 19958 KDD-1995 Montreal,Canad

14、a 4.5:1 340 19968 KDD-1996 Portland,Oregon,USA 5:1 450 19978 KDD-1997 California,USA 6:1 600 19988 KDD-1998 New York,USA 247:68 773 19998 KDD-1999 San Diego, CA, USA 280:27 600+ 20008 KDD-2000 Boston, MA, USA 录用50 800+ 20018 KDD-2001 San Francisco, CA, USA 237:31 13% 900+ 20027 KDD-2002 Edmonton, Al

15、berta, Canada 307:44 14% 20038 KDD-2003 Washington, DC, USA 298:46 15% 20048 KDD-2004 Seattle, WA, USA 384:54 14% 600-900 20058 KDD-2005 Chicago, Illinois, USA 538:101 19% 600-900 20068 KDD-2006 Philadelphia, PA, USA 531:120 23% 20078 KDD-2007 San Jose , CA , USA 除了美国人工智能协会主办的KDD年会外,还有许多的数据挖掘年会,包括PA

16、KDD, PKDD, SIAM-Data Mining,等。PAKDD (Pacific-Asia Conference on Knowledge Discovery and Data Mining)是亚太平洋地区数据挖掘会议。SIAM-Data Mining(Society for Industrial and Applied Mathematics)是SIAM组织召开的数据挖掘讨论会。此外,数据库、人工智能、信息处理、知识工程等领域的国际学术刊物也纷纷开辟了KDD专题或专刊。IEEE的KnowledgeandDataEngineering会刊领先在1993年出版了KDD技术专刊。不仅如此,

17、在Internet上还有不少KDD电子出版物,其中以半月刊Knowledge Discovery Nuggets最为权威,如要免费订阅,只需向发送一份电子邮件即可,还可以下载各种各样的数据挖掘工具软件和典型的样本数据仓库,供人们测试和评价。另一份在线周刊为DS*(DS代表决策支持),1997年10月7日开始出版,可向dstrial提出免费订阅申请。在网上,还有一个自由论坛DMEmailClub,人们通过电子邮件相互讨论数据挖掘DMKD的热点问题。而国内较好的数据挖掘技术交流网站有复旦大学的数据挖掘讨论组和数据挖掘研究院。 4、数据挖掘系统和产品 主要的实验系统有:加拿大Simon Fraser

18、 大学智能数据库系统研究室 在97年研制并开发了数据挖掘系统DBMiner;新加坡国立大学计算机学院的CBA和IAS;澳大利亚国立大学研制并开发了数据挖掘系统原型Dmtools;英国Ulster大学对数据挖掘的应用做了许多研究,先后研制过MIMIC、CERENA、NetModel等系统;德国Dortmund大学在研的项目MiningMart;美国卡内基梅隆大学自动学习和发现中心正在研制数据挖掘技术在制造业和多媒体数据库的应用。哥伦比亚大学正在研究入侵检测系统IDS等等。 主要的商业数据挖掘系统 有:SPSS公司的Clementine、SAS公司的Enterprise Miner、IBM公司的I

19、ntelligent Miner、SGI公司的Mineset、Sybase公司的Warehouse Studio、RuleQuest Research公司的See5、还有CoverStory、EXPLORA、Knowledge Discovery Workbench、DBMiner、Quest等。 数据挖掘系统大致经历了三个阶段,它们是单算法挖掘工具、数据挖掘算法工具集和数据挖掘解决方案。 单算法挖掘工具 在数据挖掘技术发展早期,研究人员开发出一种新型的数据挖掘算法,就形成一个软件。这类系统要求用户对具体的算法和数据挖掘技术有相当的了解,还要负责大量的数据预处理工作,如C4.5决策树。 随着数

20、据量的增加,需要利用数据库或者数据仓库技术进行管理,所以数据挖掘系统与数据库和数据仓库结合是自然的发展。现实领域的问题是多种多样的,一种或少数数据挖掘算法难以解决,同时,挖掘的数据通常不符合算法的要求,需要有数据清洗、转换等数据预处理的配合,才能得出有价值的模型。1995年左右软件开发商开始提供称之为工具集的第二代数据挖掘系统Shapiro00。主要因为在应用中发现用户需要多种类型 的数据挖掘算法,而且大部分精力都花费在数据清理和预处理阶段。典型的系统有IBM Intelligent Miner、SPSS的Clementine、SAS的Enterprise Miner、SGI的MineSet、

21、Oracle Darwin等。此类工具集的特点是提供多种数据挖掘算法(通常有关联规则、分类和聚类等),同时也包括数据的转换和可视化。由于此类工具并非面向特定的应用,可以称之为横向的数据挖掘工具(Horizontal Data Ming Tools)。 数据挖掘解决方案 随着横向的数据挖掘工具的使用日渐广泛,人们也发现这类工具只有精通数数据挖掘算法的专家才能熟练使用,如果对算法不了解,难以得出好的模型。所以为了推动数据挖掘技术的应用,从1999年开始,大量的数据挖掘工具研制者开始提供纵向的数据挖掘解决方案(Vertical Solution),即针对特定的应用提供完整的数据挖掘方案。这些方案提供

22、商有KD1(主要用于零售业)、Options&Choice(主要用于保险业)、HNC(欺诈行为侦测)和Unica Model 1(主要用于市场营销)等( 5、数据挖掘技术的应用前景 2002年麻省理工学院的科技评论杂志提出未来5年对人类产生重大影响的10大新兴技术,数据挖掘位居第三。 数据挖掘应用领域非常广阔 先期将在数据积累比较充分的领域银行、证券、电信等领域到应用,以后将在各行各业各领域中获得应用。只要数据积累充分,就需要数据挖掘技术。 数据挖掘技术将被社会长期使用 随着信息化工作的深入发展,计算机中积累的数据只会越来越多,人们会越来越重视对这些信息的挖掘利用,所以对数据挖掘技术的需求也会

23、越来越大。当然,数据挖掘技术本身会不断发展进步,该技术将被长期使用。 数据挖掘技术相对门槛较高 掌握这门技术需要有数理统计学、数据库、人工智能等基础,硕士研究生才可能有这样的基础,再通过努力学习才可能较好地掌握这门技术,因此目前国内数据挖掘人才奇缺,从而造成了较高的技术门槛。 下图是数据挖掘技术应用开发的几个层次。 我们仅仅以银行为例来介绍一下数据挖掘技术的应用。近年来,在金融信息化的框架下,银行业的信息基础建设不断完善,网络平台建设逐步迈向成熟。依托网络平台,国有商业银行加快了实现数据大集中建设的步伐。如工商银行已经将该行系统内的所有的交易和管理集中在北京和上海两个大中心进行。 而接下来金融

24、信息化面临的任务就是:在数据大集中的基础上,利用数据挖掘技术建立起有效的数据集成、管理、利用机制,即建立商业银行数据挖掘软件系统,充分挖掘数据价值,为银行科学化管理决策和发展新的业务服务。2002年以来,商业银行对数据挖掘技术需求的快速升温,各商业银行相继将数据挖掘应用列入近年实施计划,充分说明了这一大趋势。如交通银行已经在全行推广应用采用数据挖掘技术的客户分析系统,并拟在其他业务中应用数据挖掘技术。 风险管理:识别、防范和控制银行卡申办和使用过程中的各种风险,其业务流程包括客户档案的录入与审核、资信评估与信用控制、基础数据分析、为客户提供分类服务、透支管理控制、诉讼、预警等多个环节。 信用评

25、分:信用评分为贷方提供了准确的,客观的风险评估工具,它帮助许多贷款人来决定这样的一些问题。如果我给这个人一项贷款或者是信用卡,那么我从他那儿准时收回贷款的可能性是多少呢?数据挖掘技术能够帮助银行或信用报告代理机构产生信用得分。 争夺客户:一个银行的产品可能有几百个,要面对的客户可能是几百万个甚至上千万个,如何在这么多的客户中有效地推销自己的产品?怎么样才能将金融产品信息发给那些有可能响应并最终会购买该产品的客户呢?数据挖掘技术能够建立客户行为模型,建立提高客户响应率的解决方案,提升客户满意度。通过数据挖掘技术,我们可以很清晰地知道某个金融产品的具体市场在哪里?哪些客户最有可能购买我们的银行产品

26、?哪些客户几乎不会买我们的产品? 客户流失分析:如何留住您现在的客户,降低您的客户流失率成了一个企业取得成功的十分关键的因素。数据挖掘技术可以对客户流失进行仔细的分析。利用现有的客户信息和客户交易历史信息,分析流失客户的特征,在现有的客户中,寻找出流失可能性比较高的客户,然后公司就可以制定相应的营销策略,争取保留住这些客户。 6、结束语 目前,国内的银行、电信、石油、保险、证券、零售、医药等行业逐步将数据挖掘技术的应用作为其信息化建设的主要工作,对数据挖掘数据的应用需求越来越大。另一方面,媒体(经济参考报2003年8月15日)已经注意一到,如果说国外企业一统天下的计算机操作系统平台给我们日常操作带来安全隐患,那么,国外数据挖掘软件给我们带来的将是战略决策层面上的风险 。从而鼓励发展国产数据挖掘软件,为数据挖掘产品的推广创造了舆论环境。 另外,我们认为:在21世纪,相对于石油、煤炭、金属等资源,数据资源将是更加重要的资源。我们的石油资源依赖进口、我们的煤炭资源利用效率低下、我们的基因资源遭到掠夺等等。我们一定要保护好我们的数据资源,掌握数据资源开发利用的技术,做信息时代的技术强国。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!