数据挖掘概念

上传人:bei****lei 文档编号:113226497 上传时间:2022-06-24 格式:DOC 页数:16 大小:499.50KB
收藏 版权申诉 举报 下载
数据挖掘概念_第1页
第1页 / 共16页
数据挖掘概念_第2页
第2页 / 共16页
数据挖掘概念_第3页
第3页 / 共16页
资源描述:

《数据挖掘概念》由会员分享,可在线阅读,更多相关《数据挖掘概念(16页珍藏版)》请在装配图网上搜索。

1、 15 第1章 数据挖掘的概念第1章 数据挖掘的概念本章目标 理解对大型的、复杂的和信息丰富的数据集进行分析的必要性。 明确数据挖掘过程的目标和首要任务。 描述数据挖掘技术的起源。 认识数据挖掘过程所具有的迭代特点,说明数据挖掘的基本步骤。 解释数据的质量对数据挖掘过程的影响。 建立数据仓库和数据挖掘之间的联系。1.1 概述现代科学和工程建立在用“首要原则模型(first-principle models)”来描述物理、生物和社会系统的基础上。这种方法从基础的科学模型入手,如牛顿运动定律或麦克斯韦的电磁公式,然后基于模型来建立机械工程或电子工程方面的各种应用。在这种方法中,用实验数据来验证基本

2、的“首要原则模型”,以及对一些难以直接测量或者根本不可能直接测量的参数进行评估。但是在许多领域,基本的“首要原则模型”往往是未知的,或者研究的系统太复杂而难以进行数学定型,随着计算机的广泛应用,像这样的复杂系统生成了大量的数据。在没有“首要原则模型”时候,可以利用这些易得的可用数据,通过对系统变量之间可以利用的关系(即未知的输入输出相关性)进行评估来导出模型。这样,传统的建模及基于“首要原则模型”进行分析的方法与开发模型及直接对数据进行相应分析的方法之间普遍存在着范型变换。我们都逐渐习惯面对这样的一个事实超量的数据充斥着我们的电脑、网络和生活,政府机构、科研机构和企业都投入大量的资源去收集和存

3、储数据。实际上,这些数据中只有一小部分将会被用到,因为在很多情况下,要么数据量简直太大了,难于管理,要么就是数据结构太复杂,不能进行有效的分析。这种情况是怎么发生的呢?根本的原因是人们创建一个数据集时往往把精力都集中在如数据的存储效率的问题上,而没有去考虑数据最终是怎样使用和分析的。对大型的、复杂的、信息丰富的数据集的理解实际上是所有的商业、科学、工程领域的共同需要,在商务领域,公司和顾客的数据逐渐被认为是一种战略资产。在当今的竞争世界中,吸取隐藏在这些数据后面的有用知识并利用这些知识的能力变得愈加重要。运用基于计算机的方法,包括新技术,从而在数据中获得有用知识的整个过程,就叫做数据挖掘。数据

4、挖掘是一个反复迭代的过程,在这个过程中,所取得的进步用“发现”来定义,而这种发现是通过自动或手工方法取得的。在对什么将会构成一个“有趣的”结果没有预定概念的初步探测性分析方案中,数据挖掘非常重要。它从大量的数据中搜寻有价值的、非同寻常的新信息,是人和计算机合力的结果;它在人类描述问题和目标的知识与计算机的搜索能力之间寻求平衡,以求获得最好的效果。在实践中,数据挖掘的两个基本目标往往是预测和描述。预测涉及到使用数据集中的一些变量或域来预测其他我们所关心变量的未知或未来的值;另一方面,描述关注的则是找出描述可由人类解释的数据模式。因此,可以把数据挖掘活动分成下述两类。1) 预测性数据挖掘:生成已知

5、数据集所描述的系统模型。2) 描述性数据挖掘:在可用数据集的基础上生成新的、非同寻常的信息。在预测领域的后期,数据挖掘的目标是得出一种模型,以可执行码来表示。这种可执行码可以用于执行分类、预测、评估或者其他相似的任务。而描述性领域的后期,数据挖掘的目标是利用大型数据集中的未知模式和关系获得对所分析系统的理解。对特定的数据挖掘的应用,预测和描述的相对意义有相当大的变化。预测和描述的目标都是通过数据挖掘技术来实现的,本书将在后面介绍这些技术。数据挖掘的基本任务如下:1. 分类预测学习功能的发现,此功能将一个数据项分到几个预定义类中的一类。2. 回归预测学习功能的发现,此功能将一个数据项映射到一个真

6、实值预测变量。3. 聚类 一种普遍的描述性任务,寻求以确定有限的一组类别或类来描述数据。4. 总结概括 一项附加的描述任务,寻找对数据集或子集的简单描述方法。5. 关联建模发现描述变量之间或者数据集或其一部分的特征值之间的重要的相关性的本地模型。6. 变化和偏差检测发现数据集中最重要的变化。针对复杂的和大型的数据集的数据挖掘任务,第4章给出了更加正式的带有图形化解释和说明性示例的方法。这里给出了当前介绍性的分类和定义,只是让读者对可使用数据挖掘技术来解决的问题和任务的广阔领域有一个初步感受。数据挖掘成功地达到预定目标,很大程度上依赖于设计者投入的精力、知识和创造力。从本质上讲,数据挖掘就像是解

7、题:从问题的个别方面来看,结构并不复杂。但把它作为一个整体时,它们就能组成一个详尽的系统。当你试着去拆分这个系统时,你可能会遭遇失败,开始把各部分组合在一起又往往会为整个过程而苦恼。但是,一旦你知道怎么从部分着手,你就会发现其实问题并没有开始那么困难。同样的道理可以类推到数据挖掘中,开始的时候,数据挖掘过程的设计者可能对数据源知道的不多。如果他们知道很多,就很可能对完成数据挖掘失去兴趣。从个别来看,数据似乎是简单、完整和可解释的。但是从整体的角度看时,它们完全是另外一个面貌具有威胁性、难以理解,就像是一道难题。因此,要想在数据挖掘过程中成为一个分析者和设计者,除了要具备非常专业的知识外,还要有

8、创造性的思维以及从不同角度看问题的主动性。数据挖掘是计算机行业中发展最快的领域之一,以前数据挖掘只是结合了计算机科学和统计学而产生的一个让人感兴趣的小领域,如今,它已经迅速扩大成为一个独立的领域。数据挖掘的强大力量之一在于它具有广泛的方法和技术,以应用于大量的问题集。既然数据挖掘是一个在大型数据集上进行的自然行为,其最大的目标市场应该是整个数据仓库、数据集市和决策支持业界。包括诸如零售、制造、通信、医疗、保险、运输等行业的专业人士。在商业界,数据挖掘可用于发现新的购买倾向、设计投资战略和在会计系统中探测未经认可的开支,增加销售业务。其结果可用于向顾客提供更集中的支持和关注。数据挖掘技术也能应用

9、于解决商业过程重构问题,其目标是了解商业操作和组织之间的相互作用和关系。对一些法律的执行部门和专门的调查机构来说,它们的任务是识别欺诈行为和发现犯罪倾向。这些单位也成功地运用了数据挖掘技术。例如:这些方法能辅助分析人员识别麻醉品组织的相互交流作用中的犯罪行为模式、洗黑钱活动、内部贸易操作、连环杀手的行动以及越境走私犯的目标。数据挖掘技术也被情报部门的人员使用,他们把维持大型的数据源作为与国家安全问题相关活动的一部分。本书附录B对当今数据挖掘技术的典型商业应用作了一个简洁的纵览。1.2 数据挖掘的起源看看作者们对数据挖掘的描述有多大不同!显然我们在数据挖掘的定义上还远没有达成一致,甚至没有制定出

10、到底什么是数据挖掘,数据挖掘是使用学习方法将统计学强化后的一种形式,它是一个全新的革命性的概念吗?从我们的观点看,大部分数据挖掘问题和相应的解决方法都起源于传统的数据分析。数据挖掘起源于多种学科,其中最重要的两门是统计学和机器学习,统计学起源于数学,因此,它强调数学上的精确。在实践测试之前,在理论基础上建立一些东西的要求是明智的,相比之下,机器学习更多地起源于计算机实践。这就导致了实践的倾向,自觉地对一些东西进行检验来查看它表现的好坏,而不是去等待有效性的正式证据。如果说数据挖掘的统计学方法与机器学习方法之间的主要区别之一是数学和形式化被给予的地位的话,另一个区别就在于模型和算法规则之间侧重点

11、不同。现代统计学几乎完全是由模型概念驱动的,是一个假定的结构,或者说是一个结构的近似,这个结构能够产生数据。统计学强调模型,而机器学习倾向于强调算法。这不会让人感到吃惊,“学习”这个词包括了过程的概念,即一种含蓄的算法。数据挖掘中的基本模型法则也起源于控制理论,控制理论主要应用于工程系统和工业过程。通过观察一个未知系统(也被称为目标系统)的输入输出信息,以决定其数学模型的问题通常被叫做系统识别。系统识别的目标是多样化的,并且是从数据挖掘的立场出发的。最重要的是预测系统的行为,并解释系统变量之间的相互作用和关系。系统识别通常包括两个组织严密的步骤:(1) 结构识别在这一步骤中,我们要应用到关于目

12、标系统的先验知识来决定一类模型,在这类模型中搜寻将要导出的最适合的模型。通常这类模型都由一个参数函数y=f(u,t)来表示,y表示模型的输出,u是一个输入向量,t是一个参数向量,函数f的测定是依赖于问题的,函数基于设计者的经验、直觉和控制目标系统的自然法则。(2) 参数识别在第二步中,当模型结构已知时,我们要做的就是应用优化技术来测定参数矢量t以便结果模型y*=f(u,t*)能恰如其分地描述目标系统。一般而言,系统识别不是一个一次通过的过程,结构和参数识别都要重复进行直到找到满意的模型为止,图1-1图形化地描述了迭代的过程。每次迭代中的典型步骤如下:数学模型识别技术待识别的目标系统图1-1 参

13、数识别结构图(1) 详细说明一类公式化(数学化)的模型并对它们进行参数化,y* = f(u,t)代表需识别的系统。(2) 选择最适合可用数据集的参数(差值y - y*最小),完成参数识别。(3) 导入正确性检验来检测识别出来的模型是否能正确响应没见过的数据集(通常称为检验,确认,或核查数据集)。(4) 一旦正确性检验的结果满足要求就停止这一过程。如果我们对目标系统一无所知,结构识别就会变得困难,我们必须在通过试验和在有误差的情况下选择结构。我们对大多数工程系统和工业过程了解较多,而在大多数应用数据挖掘技术的目标系统中,这些结构完全是未知的,或者这些结构太复杂而难以得到一个适当的数学模型。因此,

14、用于参数识别的新技术已经被开发出来了,而且这些技术是当今一系列数据挖掘技术的一部分。最后,我们要区别在数据挖掘中“模型”和“模式”是怎么解释的?“模型”是一个“大型”的结构,或许是对多数(有时是全部)案例的关系的总结。反之,“模式”是一个局部结构,满足于少数的案例或者很小的数据空间区域。值得注意的是,“模式”这个词用于模式识别时的意义和它用于数据挖掘时的意义有很大的区别。在模式识别中,它是指将一个特定对象特征化的一个度量向量,是多维数据空间里的一个点。在数据挖掘中,模式仅仅是一个局部模型。本书把N维数据向量作为样本。1.3 数据挖掘过程数据挖掘作为一门学科,我们没有试图去涵盖关于它的所有可能的

15、方法和所有不同的观点,而是从一个可能的、十分广泛的数据挖掘的定义开始。定义:数据挖掘是一个从已知数据集合中发现各种模型、概要和导出值的过程。这里,“过程”一词相当重要。即使是在一些专业环境中,也有这样的一种观点:数据挖掘只是采摘和应用基于计算机的工具来匹配出现的问题并自动获取解决方案。这是一种对世界人为的理想化所形成的误解,为什么这是错的呢?有几种原因,一个原因是:数据挖掘不只是一些独立工具的一个集合,它们彼此完全不同,并且等待着去匹配问题。第二个原因在于把一个问题和一种技术视为等同的观念。在极少数情况下,研究问题可以充分、精确地陈述出来,使得方法的单独和简单的应用将会满足。实际上,现实中所发

16、生的是:数据挖掘变成了一个反复的过程。一个人对数据进行研究,利用一些分析工具对数据进行检查,决定从另外一个角度来看它,可能会对数据进行修改,然后又回到开始,应用别的数据分析工具,得到一个更好的或不同的结果。这个过程可能循环许多次,每一种技术都被用到,以便查明数据的细微的不同的方面询问一个数据的细微不同的问题。在这里不得不描述的是令现代数据挖掘激动人心的发展史。尽管如此,数据挖掘仍然不是统计学、机器学习以及其他方法和工具的随意应用,它不是在分析技术空间里面乱闯,而是一个精心策划和深思熟虑过的,决定什么才是最有用的、最有前景的和最有启迪作用的一个过程。认识到这一点很重要:从数据中发现或估计其相关性

17、,或从中完整地挖掘出新数据,只是人们所采用的一般实验性程序中的一部分,这些人包括科学家,工程师和其他应用标准步骤从数据中得出结论的人。适合数据挖掘问题的一般实验性程序包括以下步骤。1.3.1 陈述问题和阐明假设大多数基于数据的模型研究都是在一个特定的应用领域里完成的。因此,为了提出一个有意义的问题的陈述,拥有领域内详尽的知识和经验是必不可少的。不幸的是,许多应用研究往往以牺牲对问题的清晰描述为代价而集中在数据挖掘技术上,在这一步中,模型建立者通常会为未知的相关性指定一组变量,如果可能,还会指定此相关性的一个大体形式作为初始假设。对当前问题可能会有几个阐明的假设。这一步要求将应用领域的专门技术和

18、数据挖掘模型相结合,实际上,这往往意味着数据挖掘专家和应用专家之间密切地相互协作。在成功的数据挖掘应用中,这种协作并没有停止在初始阶段,而是持续了数据挖掘的整个过程。1.3.2 数据收集这一步是关于数据是怎样产生和收集的。通常有两种截然不同的可能。第一种是当数据产生过程在专家(建模者)的控制之下时:这种方法被认为是“设计实验”。第二种情况是专家不能影响数据产生过程时:这种方法被认为是“观察法”。观察设置,也就是数据随机产生,在大多数数据挖掘应用中都被采用。具有代表性的是,数据收集完成后取样的分布也是完全未知的,或者说其分布是在数据搜集过程中部分或者不明确地给出的。但是,我们要理解数据搜集是怎样

19、影响它的理论分布的,这一点相当重要。这样的先验知识对以前的建模以及后来的对结果的最终解释都是相当重要的。同样,对于用于评估模型的数据以及后面用于测试和应用于模型的数据,要确定它们来自同样的未知的样本分布也是很重要的。如果分布不同,那么评估的模型就不能在最终的结果应用中成功地使用。1.3.3 数据预处理在观察设置中,数据常常采集于已存在数据库、数据仓库和数据集市中。数据预处理通常包括至少两个常见任务:1. 异常点的检测(和去除)异常点是与众不同的数值,这些数值和大多数观察值不一致。一般来讲,异常点是由测量误差、编码和记录误差产生的,有时也来自于自然的异常值。这种不具备代表性的样本以后会严重影响模

20、型的产生。对异常点有两种处理办法:a) 把检测并最终去除异常点作为预处理阶段的一部分。b) 寻找不受异常点影响的健壮性建模方法。2. 比例缩放、编码和选择特征数据预处理过程包括几个步骤,如各种比例缩放和不同类型的编码。例如,一个取值范围为0,1的特征和一个取值范围为-100,1000的特征,它们在应用技术中的加权是不一样的,对最终的数据挖掘结果的影响也不尽相同。因此,推荐对它们进行比例缩放并使它们加权相同以进行进一步的分析。同样,通过为后来的数据建模提供较少量资料丰富的特征,详细应用的编码方法通常可以完成维度归约。这两类预处理任务只是在数据挖掘过程中大量预处理活动的说明性的例证。数据预处理步骤

21、不应该与数据挖掘的其他阶段完全独立起来考虑,在数据挖掘过程的每一次迭代中,所有的活动加在一起都能为后面的迭代定义新的和改进的数据集。通常,通过把先验知识合并为具体应用比例缩放和编码的形式,一种好的预处理方法能为数据挖掘技术提供最佳的陈述。更多关于这些技术和预处理阶段的内容大体上将会在第2章和第3章中给出。在第2章和第3章中,我们把预处理和相应的技术功能性地划分为两个子阶段:数据准备和数据维度归约。1.3.4 模型评估选择并实现适当的数据挖掘技术是这一阶段的主要任务。这个过程往往并不是直截了当的,实际上,实现是建立在几个模型的基础上的,从中选择最好的模型是额外的任务,从数据中学习和发掘的基本原则

22、将会在本书的第4章介绍,随后,第513章解释和分析一些特殊的技术,应用这些技术可以从数据中成功地学习,也可以应用这些技术找到适当的模型。1.3.5 解释模型和得出结论在大多数情况下,数据挖掘模型应该有助于决策。因此,要对这种模型进行说明以使模型有用,因为人们不会在复杂的“黑箱模型”的基础上作决策。注意,模型准确性的目标和模型说明的准确性的目标有点互相矛盾。一般来说,简单的模型容易说明,但是其准确性就差一些。现代的数据挖掘方法寄望于使用高维度的模型来获得高精度的结果。用特定的技术验证这些结果对这些模型进行解释说明被看作是一项独立的任务,同时也是非常重要的。用户不会想要一个数百页的数值结果,这样的

23、结果难以理解,不能总结、解释,也不能用这样的结果来进行成功的决策。尽管本书将重点放在数据挖掘过程中的第3步和第4步,我们还是必须了解它们只不过是一个更为复杂的过程中的两个步骤而已,不管是个别地来看数据挖掘的各个阶段,还是整个的数据挖掘过程,都是高度反复的,如图1-2所示,对整个过程的良好理解对任何成功的应用都是重要的。如果没有恰当地收集和预处理数据,或者没有对问题进行有意义的明确表述,不管第4步中所使用的数据挖掘方法有多强大,最终模型都将是无效的。陈述问题搜集信息进行预处理解释模型和得出结论评估模型(挖掘数据)图1-2 数据挖掘过程1.4 大型数据集随着我们进入数字信息时代,数据超负的问题迫在

24、眉睫,我们分析和理解大规模数据集,就是我们称之为大型数据集的能力,远远落后于我们采集数据和存储数据的能力。数字化信息的大型数据库是普遍存在的,来自于附近商店的结账记录,银行信用卡授权机构,你的医生办公室,你的电话呼叫模式以及许多应用中的数据都生成数字记录的数据流,这些数据流都存放在巨大的商业数据库中。科学家们处于当今的数据收集机中的更高端,他们使用来源不同的数据从远程感知平台到细胞细节的显微探测。科学仪器可以很容易地在很短的时期内生成千兆字节的数据并把它们存储到计算机中,伴随着互联网的扩展,信息时代造成了信息资源和信息存储单元呈指数级的增长。在图1-3给出的例子中,我们可以看到,仅仅在最近的3

25、年里,互联网上的主机数量有显著增长。这些数字和存储在互联网上的信息量直接成比例。在数据搜集和数据的组织能力与分析能力之间存在着的差距正在迅速扩大。当前的硬件和数据库技术允许高效的、廉价的、可靠的数据存储和访问。但是,不管其内容是商业的、医学的、科学的或者政治的,数据集本身在其原始形式下是没有什么直接价值的,有价值的是从数据中推出的并付诸实用的知识。例如,消费品公司的销售数据库可以得出某种产品的销售和某个人口统计组群之间的相互关系。这些知识可用于引入新的、有目标的销售业务活动,和无目标的活动相反,这些活动能够带来可预测的财政回报。400,00016,000,0001998 1999 2000年主

26、机数量图1-3 互联网上主机的增长问题的根源是,对于手工分析和解译来说,或者甚至对半自动的基于计算机的分析来说,数据的规模和维数都太大了。另外,科学家或者商业经理面对几百或者上千条记录有效地工作,对每一个数据点都有几十条或几百条特征描述的几百万个数据点进行有效地挖掘,这也是一个问题。想象一下对几千兆字节的高分辨率的(每张图像23,04023,040像素)空摄图像数据进行分析,或者分析有千百万个组成部分的人类基因组数据库吧。从理论上讲,“大型数据”能得出更有力的结论。然而在实践中会出现许多困难,商业界很好地意识到了今天的信息超负。有分析显示:1. 61%的经理相信他们的工作场所中出现了信息超负。

27、2. 80%的人相信情况会越来越糟。3. 超过50%的经理因为信息超负而在决策过程中忽略了数据。4. 84%的经理所存储信息并不用于当前的分析,而是为了以后使用。5. 60%的经理相信搜集信息的成本高于信息本身的价值。解决方法是什么?努力工作?是的,但是你能坚持多久呢?因为限制非常紧。雇用一个助手,也许行得通,如果你支付得起的话。忽略信息?但是,这样你将失去市场竞争力。仅有的真正的方法是用新的数据挖掘技术来代替传统的数据分析和解释方法(手工的和基于计算机的)。理论上,大多数数据挖掘方法都适用于大型数据集。大型数据集具有产生更有价值的信息的潜力。如果数据挖掘是对可行空间的搜索,那么大型数据集提出

28、了更多的列举和评估的可行性。增长的列举和搜索的潜能通过实践中的限制达到平衡。除了用于大型数据集的数据挖掘算法的计算复杂性之外,更加彻底的搜索也有可能增加发现一些低可行性方法的风险。这些方法对所给的数据集的评价很不错,但是可能并不适合将来的期望。在当今的具备巨大的互联网基础设施的多媒体环境下,产生了不同类型的数据和数字化的存储。要准备适当的数据挖掘方法,我们必须分析数据集的基本类型和特征。分析的第一步是关于它们的计算机表述和使用进行数据分类。数据通常是数据挖掘过程的原始资料,可以分为结构化数据,半结构化数据和非结构化数据。许多包含结构化数据的商务数据库都由定义良好的具有数字值或者文字数字值的字段

29、组成。科学数据库则可能包括所有的3种数据。半结构化数据的例子是商务文档的电子图像、医学报告、执行概要和修复手册。多数Web文档也可以归为此类。非结构化数据的例子如商店的监视摄像机所记录的录像。硬件成本的下降使得这些可视化的,通常是人们所感兴趣的过程或事件的多媒体记录目前非常普及和流行。这种形式的数据往往需要昂贵的处理,以提取和组织蕴含在其中的信息。结构化数据常常被认为是传统的数据,半结构化数据和非结构化数据合在一起被称为非传统数据(也叫多媒体数据),目前的大多数数据挖掘方法和商业工具都可应用于处理传统数据。但是,针对非传统数据的数据挖掘工具和将非传统数据向结构化数据转换的接口都在飞速发展。数据

30、挖掘的结构化数据的标准模型是案例的集合,对所谓特征的潜在度量进行详细说明,这些特征一律要在多数案例中测量。数据挖掘问题的结构化数据通常都是以表格形式或者单个的关系(关系数据库中的术语)来表述的,表格的列是存储在表格中的对象的特征,表格的行则是特殊实体的特征值。图1-4是一个数据集及其特征的简化图,在数据挖掘文献中,我们常常用样本或案例这两个术语来代表行。结构化数据记录中有许多不同类型的特征(属性或变量)例如字段这在数据挖掘中非常普遍。并不是所有的数据挖掘方法都擅长于处理不同类型的特征。样本特征所给样本的特征值图1-4 数据集的表格表示描述特征有几种方法。一种方法是查看一个特征,或者变量这个术语

31、在形式化过程中更常用。看它是一个自变量还是一个因变量。也就是说,看这个变量的值是否要依赖数据集中出现的其他变量的值。这是一种基于模型的分类变量方法。所有的因变量都被认为是正在建模的系统的输出,而自变量则是系统的输入,如图1-5所示。还有一些影响系统行为的附加变量,但在建模过程中这些变量所对应的值在数据集中是不可用的。原因从测量这些特征有高度的复杂性和高成本,到建模者不理解一些因素在模型中的影响和重要性,不尽相同。通常把这些变量叫做未识别变量,它们是造成模型中的不确定性和要进行预测的主要原因。XZY系 统图1-5 一个真实系统,除了输入(自变量)X和输出(因 变量)Y之外,往往还有未识别的输入变

32、量Z今天的计算机和相应的软件工具都支持对有几百万样本和几百个特征的数据集进行处理。大型数据集,包括带有混和型数据类型的数据集,都是数据挖掘技术应用的典型初始环境,当一个大型数据集存放在计算机中时,不能仓促地运用数据挖掘技术,因为首先要解决数据质量这个重要问题。同时,在这个时期进行手工的质量分析显然也是不可能的。因此,有必要在数据挖掘过程的早期阶段进行数据质量分析准备,这通常是数据预处理阶段所要进行的工作。数据的质量对系统的映像有深远的影响,并决定了相应的含蓄描述的模型,并决定了相应的含蓄描述的模型,同时也会限制终端用户作出精明决策的能力。如果数据质量很差的话,即使使用有效的数据挖掘技术,也很难

33、在组织中进行主要的性质上的改变。同样,要从低质量的科学数据中得出新的、可靠的发现也几乎是不可能的。数据质量有许多指标: 数据应当准确。分析者必须检查名称的拼写是否正确,代码是否在给定的范围内,取值是否完整等。 应该根据数据类型来存储数据。分析者要确保数值型的数据不要以字符形式出现,整型数据不要以实数形式出现。 数据要有完整性。不要因为不同用户之间的冲突而丢失更新资料,如果资料不是数据库管理系统(DBMS)的一部分的话,应当执行健壮的备份和恢复程序。 数据要有一致性。在对不同来源的大型数据集进行集成后,数据的形式和内容也应当一致。 数据不要有冗余。在实践中,冗余数据要减到最少,论述详尽的副本要得

34、到控制,去除复制的记录。 数据应当及时。应当从数据中明确地或者从数据的构成方式中含蓄地识别出数据的时间成分。 数据应当能够被很好地理解。命名规格是数据能被很好的理解的必要条件,但却不是惟一条件,用户应当明白,数据对应的是一个已建立的域。 数据集应当是完整的。现实中会发生数据丢失,要把数据丢失降到最小。丢失数据会降低全局模型的质量。另一方面,一些数据挖掘技术相当健壮,它们支持对丢失数据的数据集进行分析。在介绍基础数据挖掘预处理方法的第2章和第3章中,将会更详细地阐述怎样在出现这些数据质量问题的情况下工作和怎样解决这些问题。这些处理大多都是利用数据仓库技术来完成的,1.5节会作简单的介绍。1.5

35、数据仓库虽然数据仓库的存在并不是数据挖掘的先决条件,但是实际上,通过对数据仓库的访问,数据挖掘任务变得容易多了,对大公司来说更是如此。数据仓库的主要目标是增加决策过程的“情报”和此过程的相关人员的知识。例如:产品销售主管看待产品销售业绩的多维度的能力从地区、销售类型、顾客统计群方面来看可能会取得更好的成就,增加产量,或者对产品库存和分布作出新的决策。应当指出,普通公司只能做普通工作。而超级公司是不同的,他们注意细节。他们可能需要以不同的方式对数据切片和切块,以获得对其结构更深刻的理解,并取得可能的进步。用户要进行这些处理,就必须了解存在着什么样的数据,它存放在什么地方,以及怎样访问它。数据仓库

36、对不同的人来说有不同的意义,一些定义限于数据,一些则涉及人、方法、软件、工具和数据。一个综合性的定义是:数据仓库是一个集成的,面向主题的、设计用于决策支持功能(DSF)的数据库的集合,数据中的每一个数据单元在时间上都是和某个时刻相关的。在这个定义的基础上,数据仓库也可被看作是某个组织的数据存储库,用于支持战略决策。数据仓库的功能是以集成的方式存储整个组织的历史数据,这些数据会影响到这个组织和企业的多个方面。数据仓库中数据仅仅响应终端用户的查询而决不会更新,这些终端用户通常都是决策者。一般来讲,数据仓库都很巨大,它存储了几百万条记录。在很多情况下,一个组织可能有几个局部或部门的数据仓库,这常常叫

37、做数据集市,数据集市是用于满足一组特殊用户需要的数据仓库。有大有小,其规模主要依赖于其主题的范围。在数据仓库发展的早期,由于对什么是数据仓库有本质上的误解,一些项目出现波折并不令人惊讶,令人惊讶的是这些项目的大小和规模。许多公司在确切地定义数据仓库、数据仓库要解决的商业问题和使用数据仓库做什么的问题上犯了错,要更好地理解数据仓库的设计过程,两个方面是最重要的:第一是数据仓库中存储的特殊数据的类型(分类),第二是为了使数据有利于决策而把它准备成最终形式所要进行的转换。数据仓库包括以下的数据类别,这个分类使其适应于时间依赖的数据源。(1) 过去细节数据(2) 当前(新)细节数据(3) 轻度综合数据

38、(4) 高度综合数据(5) 元数据(数据目录或向导)在数据仓库中进行这5种基本类型或导出数据的准备,数据基本类型的转换已经标准化。有4种主要的转换形式,每一种都有自己的特点:1. 简单转换这种转换是所有其他复杂转换的基石。这种类型包括数据操控,它一次只集中在一个字段上,而不考虑相关字段的值。例如改变字段的数据类型或把字段的编码值更换成译码值。2. 清洁和净化这种转换确保一个字段或相关组的字段格式和使用的一致性。例如它可能包括地址信息的正确格式化。这类转换也包括对一个特定字段的值的有效性进行检查,通常检查取值范围或从列表中选取。3. 集成这是对有一个或多个来源的操作型数据进行处理,并对它进行字段

39、到字段的映射,在数据仓库中得到一个新的数据结构的过程。在构建数据仓库时,公有的标志符问题是最难的集成问题中的一个。从本质上讲,当同一个实体具有多个系统源并且无法将这些实体区分开来时,就会出现这样的情况。这是一个有挑战性的问题,在很多情况下,这个问题不能以自动化的方式解决,常常需要用复杂的算法把可能的匹配进行配对。当同一个数据元素有多个来源时,就会出现另一个复杂的数据集成方案。在现实中,这些值相互对立,解决它们的冲突并不是一帆风顺的事情,出现这样的情况很普通。数据仓库中的数据元素没有值也同样是个难题,所有的这些问题和相应的自动化或半自动化的解决方法总是依赖于域的。4. 聚合和总结这是将操作型环境

40、中的数据实例浓缩成更小的数据仓库环境中的实例的方法。虽然聚合和总结这两个术语在文献中常常交替使用,我们确信在数据仓库环境中它们在意义上有细微的不同。总结是一维或多维数据值的简单相加。例如:合计日销量以得出月销量。聚合指的是不同的商业元素相加得到共同的一个总计,它高度依赖于域。例如:聚合是将产品日销量和咨询月销量相加得到一个综合性月总计。这些转换是我们把数据仓库作为数据挖掘过程的数据来源的主要原因。如果数据仓库可用的话,数据挖掘的预处理阶段就可以极大地简化,甚至有时可以去掉预处理阶段。不要忘了,数据准备是最耗时的阶段。虽然数据仓库的实现是一个复杂的任务,很多文章都对其进行了非常详尽的描述,本书只

41、给出它的基本特征。通过以下基本步骤,将数据仓库的发展过程概括为3个阶段。 建模简单地说,就是要花时间去了解商业过程、这些过程中的信息需求以及过程中通常会作出的决策。 构建建立适合决策支持类型的工具的需求,这种支持对目标商业过程是必需的,创建一个有助于进一步定义信息需求的数据模型,把问题分解为最终形式的数据规格和现行的数据存储,以数据集市或更全面的数据仓库来表述。 部署在全部过程中相对早地去实现存入仓库的数据的属性以及要采用的不同的商业智能工具,从培训用户开始。部署阶段显然包括这样的一段时间:用户研究存储库(以了解可用的和应当可用的数据)和现行数据仓库的早期版本。这会导致数据仓库出现演化,包括增

42、加更多的数据,扩充历史周期,或重新回到构建阶段以便通过数据模型来扩展数据仓库的规模。既然数据仓库的唯一功能是向终端用户提供信息以支持决策,数据挖掘体现了数据仓库一个最主要的应用。与其他查询工具和应用系统不同,数据挖掘过程向终端用户提供提取隐藏的、非同等常的信息的能力。这种信息虽然更难提取,但能提供更大的商业和科学利益,也能使对“数据仓库和数据挖掘”的投资产出更高的利润。数据挖掘与其他典型的数据仓库应用,如结构化查询语言(SQL)和联机分析处理工具(OLAP),它们之间怎么不同呢?这两种工具也用于数据仓库。SQL是一种标准的关系数据库语言,善于进行这样的查询:在数据库数据上强加一些约束条件以便于

43、获取答案。相比之下,数据挖掘方法善于进行另外一种查询,这种查询在本质上是探测性的,试图获得隐藏的而不是明显的信息。当我们知道我们在寻找什么并能正式地描绘它的时候,SQL就非常有用。而当我们仅仅含糊地知道我们在寻找什么的时候,我们使用数据挖掘方法。因此,这两种数据仓库应用是互补的。OLAP工具和方法在近年来变得非常流行,因为它们为用户提供多个数据视图来对数据仓库的数据进行分析,这些视图都有先进的图形表述对它进行支持。在这些视图中,不同的数据维度和不同的事务特征相对应。OLAP工具可以容易地从任意角度观察空间数据或对其切片和切块,虽然OLAP工具像数据挖据工具一样提供由数据导出的答案,它们之间的相

44、似性却仅限于此。在OLAP中从数据导出的答案引出类似于电子数据表中的计算,因为两者都用简单而且先进的(given-in-advance)计算。OLAP工具不依赖于数据,也不创造出新的知识。它们通常都是帮助终端用户得出他们的结论和决策的具有专门用途的可视化工具,并基于图形化浓缩的数据。OLAP工具对数据挖掘过程也很有用,它是数据挖掘的一部分,但不能代替数据挖掘。1.6 本书的结构在第1章介绍了数据挖掘的基本概念以后,本书余下的部分围绕着数据挖掘过程的基本阶段。在第2章和第3章中解释原始大型数据集的一些共同的特性和一些典型数据预处理技术,本章强调了这些初始阶段对整个数据挖掘结果最终的质量和成功的影

45、响和重要性。第2章提出了对原始数据,包括对具有丢失数据和时间依赖属性的数据集进行转换的一些基本技术。还有异常点分析技术,它是对杂乱数据进行预处理的一组重要技术。第3章则是对大型数据集进行归约处理,并介绍了特征归约、值归约和案例归约的有效方法。当数据集已进行了预处理并为数据挖掘作准备时,有大范围的数据挖掘技术可利用,选择一种还是多种数据挖掘技术依赖于应用的类型和数据的特征。在第4章中,在介绍特殊的数据挖掘方法之前,我们介绍了所有数据挖掘技术的全面的理论背景和可应用的形式。这些理论的本质可以概括为一个问题:我们怎样从数据中学习?第4章重点介绍了统计学的学习理论和可从此理论中得出的不同的学习方法和学

46、习任务。从第512章对普通挖掘技术作了一个纵览。第5章提出了选择统计推理方法,包括贝叶斯分类器,预测性和对数回归,方差分析,记录线性模型。第6章说明聚类问题的复杂性,介绍了凝聚、划分和增量聚类技术。C4.5算法作为针对分类问题的基于逻辑技术的代表,第7章总结了它的基本特征。第8章介绍了大型数据集中局部建模的各个方面,以及关联规则挖掘、Web挖掘和文本挖掘的常见技术。第9章讨论了人工神经网络的基本构成,并介绍了多层感知机和竞争性网络这两类作为人工神经网络技术的范例,遗传算法和模糊系统没有直接应用于大型数据集的数据挖掘,关于它们的大多数技术会在第10章和11章章中介绍。作者认为这些源于软计算并越来

47、越重要的技术或许不是独立的数据挖掘技术,而是和其他技术合成而来的,在表达和数据计算方面做得更好。第12章讨论了可视化数据挖掘技术的重要性,尤其是针对大规模样本的表述的可视化技术。我们期望能够得到用相应例子和说明的信息丰富的内容作为补充。本书的各章都带有复习题和读物列表。为了对本书所包括的各种主题有深入的了解,我们向读者推荐一系列相当全面的参考书,在每章的末尾给出。虽然大多数参考书来自于不同的期刊、杂志、会议记录和专题学术讨论会议记录,但是很显然在最近几年可用的书太多了,覆盖了数据挖掘和知识发现的各个方面。最后,本书就数据挖掘的实际应用的有用的背景信息带有两个附录,附录A中,对商业的和公用数据挖

48、掘工具作了一个纵览,附录B提供了重要Web站点和数据挖掘的供应商的详细列表。1.7 复习题1. 解释为什么用传统的建模技术来分析一些大型数据集是不可行的?2. 你在你的商业或学术环境中看出问题来了吗?这些问题的答案可以通过分类、回归或偏差来获取。举例说明。3. 解释大型数据集的分析中的统计学和机器学习方法的区别。4. 为什么预处理和维归约是数据挖掘应用的重要阶段?5. 给出可以明显看出时间成分和隐含时间成分的数据例子。6. 为什么数据挖掘者对数据的理解很重要?7. 给出日常生活中结构化数据、半结构化数据、非结构化数据的例子。8. 一个具有50,000个样本的数据集能叫做大型数据集吗?解释你的答

49、案。9. 列举可把数据仓库作为数据挖掘过程的一部分来解决的任务。10. 许多作者把OLAP工具划为标准的数据挖掘工具。给出反驳这种分类的论据。1.8 参考书目1. Berson, A., S. Smith, K. Thearling, Building Data Mining Applications for CRM, McGraw-Hill, New York, 2000.这本书主要是为商业团体所著,解释了数据挖掘技术中竞争的优势。并在理解这项至关重要的技术和运用这项技术来处理公司的特殊需求的鸿沟之间架起了桥梁。用现实世界中的例子解释了数据挖掘过程的基本阶段。2. Han, J. and M

50、. Kamber, Data Mining: Concepts and Techniques, Morgan Kaufmann, San Francisco, 2000.这本书给出了一个数据挖掘法则的正确理解。本书的定位是针对数据库开发人员和专业人员。重点在OLAP和数据仓库方面,另外还深入地分析了关联规则和聚类算法。所有的算法都以容易理解的伪码形式给出并适用于现实世界、大型数据挖掘项目,包括像Web挖掘和文本挖掘这样的高级应用。3. Hand, D., H. Mannila, P. Smith, Principles of Data Mining, MIT Press, Cambridge:

51、 MA, 2001.这本书包括3个部分。第1部分是基础。提出了对基本数据挖掘算法以及它们的应用法则的指导性看法。第2部分,数据挖掘算法。展示了算法是怎样建立以便在有原则性的方式下解决特定问题。第3部分说明了当应用于现实世界中的数据挖掘问题时,前面所说的这些分析是如何配合在一起的。4. Westphal, C. and T. Blaxton, Data Mining Solutions: Methods and Tools for Solving Real-World Problems, John Wiley, New York, 1998.这本介绍性的书给出了一种令人耳目一新的针对数据挖掘的“现学现用(out-of-the-box)”方法,有助于读者最大化地减少时间和解决问题的资源,并为下一波数据挖掘的可视化技术作准备。本书涵盖了相当广泛的数据挖掘软件工具,这些工具对计划建立自己的数据挖掘环境的读者很有价值。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!