数据挖掘与商业智能

上传人:lis****210 文档编号:110811518 上传时间:2022-06-19 格式:DOCX 页数:6 大小:17.78KB
收藏 版权申诉 举报 下载
数据挖掘与商业智能_第1页
第1页 / 共6页
数据挖掘与商业智能_第2页
第2页 / 共6页
数据挖掘与商业智能_第3页
第3页 / 共6页
资源描述:

《数据挖掘与商业智能》由会员分享,可在线阅读,更多相关《数据挖掘与商业智能(6页珍藏版)》请在装配图网上搜索。

1、数据挖掘技术与信息管理摘要:随着网络、数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。数据挖掘就是从大量的实际应用数据中提取隐含信息和知识,它利用了数据库、人工智能和数理统计等多方面的技术,是一类深层次的数据分析方法。一、数据挖掘与信息管理现代信息管理的发展趋势之一是从信息的载体形式管理向内容的知识管理深化。长期以来,图书情报部门工作主要是对信息的载体进行管理,以提供信息的外在特征服务为主。随着大量的信息资源的增多,人们对信息的利用要求已经不止满足一般文献的检索和原件的获取,而且还要对信息内容进行深入的分析,因为仅一般的查询和检索不能帮助用户获得结论性的认识,而且信息

2、资源不能得到充分的利用。近年来,数据库技术得到了迅速的发展,许多领域都建立大量的数据库,并通过网络形式提供有关的服务。数据库大量的数据中隐藏着许多有价值的信息,是不可多得的知识信息源,而目前的数据库系统一般只限于一些基本的数据查询操作,通过数据库管理系统只能对数据“粗加工”,不能从这些数据中归纳出隐含的带有结论性的知识,使得这些有用知识不为人知,无法利用,实际上是对数据库信息资源的一种浪费。因此,对数据的进一步加工和内容分析显得越来越重要。在这样的背景下,数据仓库、数据挖掘和知识发现等技术应用而生。数据挖掘和知识发现是数据库技术的深层次的应用,它能从大量数据中抽取出具有一定规律的知识,深层次的

3、开发可以进一步提高信息资源的使用价值,充分利用信息资源,提高使用效益。数据挖掘和知识发现为给决策分析带来了新的途径,能更好地解决日益复杂多变的决策环境问题,进一步提高了决策的准确性和可靠性,为科学决策提供了基础。数据挖掘和知识发现是知识管理的需要,信息是巨大的社会财富,知识发现可以更为全面地获取信息并深入地对信息进行分析,认识有关的规律,产生最大限度的升华,不断形成新的知识,从而转化为生产力,提高竟争能力。数据是信息和知识的源泉。但是,拥有大量的数据与拥有许多有用的信息完全是两回事。过去几年中,从数据库中发现知识这一领域发展的很快。广阔的市场和研究利益促使这一领域的飞速发展。计算机技术和数据收

4、集技术的进步使人们可以从更加广泛的范围和几年前不可想象的速度收集和存储信息。收集数据是为了得到信息,然而大量的数据本身并不意味信息。尽管现代的数据库技术使我们很容易存储大量的数据流,但现在还没有一种成熟的技术帮助我们分析、理解并使数据以可理解的信息表示出来。在过去,我们常用的信息获取方法是由知识工程师把专家经验知识经过分析、筛选、比较、综合、再提取出信息和规则。然而,由于知识工程师所拥有知识的有局限性,所以对于获得信息的可信度就应该打个折扣。目前,传统的知识获取技术面对巨型数据仓库无能为力,数据挖掘技术就应运而生。数据的迅速增加与数据分析方法的滞后之间的矛盾越来越突出,人们希望在对已有的大量数

5、据分析的基础上进行科学研究、商业决策或者企业管理,但是目前所拥有的数据分析工具很难对数据进行深层次的处理,使得人们只能望“数”兴叹。数据挖掘正是为了解决传统分析方法的不足,并针对大规模数据的分析处理而出现的。数据挖掘通过在大量数据的基础上对各种学习算法的训练,得到数据对象间的关系模式,这些模式反映了数据的内在特性,是对数据包含信息的更高层次的抽象。目前,在需要处理大数据量的科研领域中,数据挖掘受到越来越多的关注,同时,在实际问题中,大量成功运用数据挖掘的实例说明了数据挖掘对科学研究具有很大的促进作用。数据挖掘可以帮助人们对大规模数据进行高效的分析处理,以节约时间,将更多的精力投入到更高层的研究

6、中,从而提高科研工作的效率。二、信息管理信息管理是人类综合采用技术的、经济的、政策的、法律的和人文的方法和手段对信息流(包括非正规信息流和正规信息流)进行控制,以提高信息利用效率、最大限度地实现信息效用价值为目的的一种活动。信息是事物的存在状态和运动属性的表现形式。“事物”泛指人类社会、思维活动和自然界一切可能的对象。“存在方式”指事物的内部结构和外部联系“运动”泛指一切意义上的变化,包括机械的、物理的、化学的、生物的、思维的和社会的运动。“运动状态”是指事物在时间可空间上变化所展示的特征、态势和规律。信息一般经由两种方式从信息产生者向信息利用者传递。一种是由信息产生者直接流向信息利用者,称为

7、非正规信息流;另一种是信息在信息系统的控制下流向信息利用者,称为正规信息流。所谓信息管理,是指对人类社会信息活动的各种相关因素(主要是人,信息,技术和机构)进行科学的计划,组织,控制和协调,以实现信息资源的合理开发与有效利用的过程。它既包括微观上对信息内容的管理一一信息的组织,检索,加工,服务等,又包括宏观上对信息机构和信息系统的管理。通过制定完善的信息管理制度,采用现代化的信息技术,保证信息系统有效运转的工作过程。既有静态管理,又有动态管理,但更重要的是动态管理。它不仅仅要保证信息资料的完整状态,而且还要保证信息系统在“信息输入一信息输出”的循环中正常运行。信息管理是人类为了收集,处理和利用

8、信息而进行的社会活动。它是科学技术的发展,社会环境的变迁,人类思想的进步所造成的必然结果和必然趋势。(1) 信息资源它是信息生产者、信息、信息技术的有机体。信息管理的根本目的是控制信息流向,实现信息的效用与价值。但是,信息并不都是资源,要使其成为资源并实现其效用和价值,就必须借助“人”的智力和信息技术等手段。因此,“人”是控制信息资源、协调信息活动的主体,是主体要素,而信息的收集、存储、传递、处理和利用等信息活动过程都离不开信息技术的支持。没有信息技术的强有力作用,要实现有效的信息管理是不可能的。由于信息活动本质上是为了生产、传递和利用信息资源,信息资源是信息活动的对象与结果之一。信息生产者、

9、信息、信息技术三个要素形成一个有机整体信息资源,是构成任何一个信息系统的基本要素,是信息管理的研究对象之一。(2) 信息活动它是指人类社会围绕信息资源的形成、传递和利用而开展的管理活动与服务活动。信息资源的形成阶段以信息的产生、记录、收集、传递、存储、处理等活动为特征,目的是形成可以利用的信息资源。信息资源的开发利用阶段以信息资源的传递、检索、分析、选择、吸收、评价、利用等活动为特征,目的是实现信息资源的价值,达到信息管理的目的。单纯地对信息资源进行管理而忽略与信息资源紧密联系的信息活动,信息管理的研究对象是不全面的。三、知识获取与数据挖掘一般说来,知识获取意为数据库中知识获取,它代表从低层次

10、数据中提取高层次知识的全过程,包括数据信息的收集,数据原型的确定,相关函数的分析,知识的抽取和数据模式分析。统计学中常指的是无假设证实所进行的数据测量和分析。而数据挖掘则是指从数据中自动地抽取模型。数据挖掘包括许多步骤:从大规模数据库中(或从其他来源)取得数据;选择合适的特征属性;挑选合适的样本策略;剔除数据中不正常的数据并补足不够的部分;用恰当的降维、变换使数据挖掘过程与数据模型相适合或相匹配;辨别所得到的是否是知识则需将得到的结果信息化或可视化,然后与现有的知识相结合比较。这些步骤是从数据到知识的必由之路。每一步骤都可能是成功的关键或失败的开始。在一般的定义中数据挖掘是知识获取的一部分。数

11、据挖掘的研究领域涉及广泛,主要包括数据库系统,基于知识的系统,人工智能,机器学习,知识获取,统计学,空间数据库和数据可视化等领域。(1)统计学统计学在数据样本选择、数据预处理及评价抽取知识的步骤中有非常重要的作用。以往许多统计学的工作是针对数据和假设检验的模型进行评价,很明显也包括了评价数据挖掘的结果。在数据预处理步骤中,统计学提出了估计噪声参数过程中要用的平滑处理的技术,在一定程度上对补足丢失数据有相当的作用。统计学对检测数据分析、聚类和实验数据参数设计上也有用。但统计学研究的焦点是在于处理小规模数据样本采集和小规模数据集处理的问题上。统计学的工作大多是针对技术和模型的理论方面。于是许多工作

12、是着眼于线性模型、递增的高斯噪声模型、参数估计和严格分类参数模型上。只有在进行相近模式区别时才强调寻优。大多数数据库用户并不具备恰当使用统计学知识的能力。实际上是要求有关数据库工程师或数据库系统的管理员运用关于数据选择的模型、相当多的域知识和数学知识的能力,在现实中是不大可能的。(2)模式识别在模式识别工作中,传统上是把注意力集中在符号形式化直接结合实际技术的工作过程中。模式识别主要用于分类技术和数据的聚类技术上。模式识别中的分类和含义分析是对数据挖掘概念形成的开端。多数模式识别的算法和方法对降维、变换和设置都有直接的参考意义。在数据挖掘的步骤中,模式识别比统计学更为重要,因为它强调了计算机算

13、法、更加复杂的数据结构和更多的搜索。典型的数据分类是用一定的分类技术把数据从一个向量空间映射到另外一个向量空间。但这种映射并不总是有意义的。(3)人工智能人工智能对于数据挖掘来说原来一直是在符号的层次上处理数据,而对于连续变量注意较少。在机器学习和基于案例的推理中,分类和聚类算法着重于启发式搜索和非参数模型。对于其结果,并不象模式识别和统计学在数学上的精确和要求严格分析。随着计算机学习理论的发展。人工智能把注意力集中在了表达广义分类的模糊边缘上。机器学习主要是对数据挖掘过程中的数据变量选择处理极有帮助,在通过大量搜索表达式和选择变量上有很大作用。另外,机器学习对于发现数据结构,特别是人工智能中

14、的不确定推理技术和基于贝叶斯模型推理是统计学意义上的分布密度估计的强有力的工具。人工智能技术建立了关于特定领域知识和数据的已有知识的相对容易理解和自然的框架。人工智能的其他技术,包括知识获取技术、知识搜索和知识表达在数据挖掘的数据变换、数据选择、数据预处理等步骤中都有作用。(4)数据库数据库及其相关技术显然与数据挖掘有直接的关系。数据库是原始数据的处理、储存和操作的基础。随着平行和分布式数据库的使用,对数据录入和检索有更高的要求。数据挖掘中很重要的一个问题是对数据库中数据的在线分析,主要是如何利用多种方法对数据进行实时处理和分析。一般来说,通过相关数据结构的标准化可以克服要求特殊存取数据的困难

15、。在数据挖掘中为了对数据进行特定的统计和计数,则要对各个特征属性进行组合形成新的数据库。其中,对于数据挖掘所得知识支持率的研究是个新领域。为直接从数据库中发现联系规则,已经以产品的形式出现了依靠分析和分类表达式的新方法。此外,为了对数据库问题的求解和优化,利用新出现的数据库定向技术更加易于寻求数据库中隐含的模式。四、数据挖掘技术的方法数据挖掘涉及的学科领域和方法很多,如多种分类法。根据开采任务分,可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等;根据开采对象分,有关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒

16、体数据库、异质数据库、遗产数据库以及环球网Web根据开采方法分,可粗分为:机器学习方法、统计方法、神经网络方法和数据库方法。机器学习中,可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。统计方法中,可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神经网络方法中,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是多维数据分析或OLAP方法,另外还有面向属性的归纳方法。结束语数据挖掘技术是一个发展十分快的领域,随着对数据挖掘技术在各领域日益广泛的应用,实现了数据资源共享及技术发展的跨域,从而大大提高了工作效率,并带来巨大的成功。21世纪是信息时代的社会“信息不仅是资源,更是财富”要实现经济的腾飞,需依赖高新尖科技的发展,故利用提供的信息,充分进行数据挖掘,则将为数据库的应用开辟了广阔的前景,也为人类的文明开辟了一个崭新的时代。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!