数据仓库、联机分析处理与数据挖掘

上传人:z**** 文档编号:113219387 上传时间:2022-06-24 格式:DOC 页数:8 大小:190.50KB
收藏 版权申诉 举报 下载
数据仓库、联机分析处理与数据挖掘_第1页
第1页 / 共8页
数据仓库、联机分析处理与数据挖掘_第2页
第2页 / 共8页
数据仓库、联机分析处理与数据挖掘_第3页
第3页 / 共8页
资源描述:

《数据仓库、联机分析处理与数据挖掘》由会员分享,可在线阅读,更多相关《数据仓库、联机分析处理与数据挖掘(8页珍藏版)》请在装配图网上搜索。

1、数据仓库、联机分析处理与数据挖掘 08广义概念上的数据仓库是一种帮助企业做决策的体系化解决方案,它包括了三个方面的 内容: 数据仓库技术(Data Warehouse, DW) 联机分析处理技术(On-line Analytical Processing, OLAP) 数据挖掘技术(Data Mining, DM) 数据仓库、联机分析处理和数据挖掘作为信息处理技术是独立出现的。数据仓库用于数据的存储和组织;联机分析处理则侧重于数据的分析;数据挖掘则致力于知识的自动发现。 因此这三种技术之间并没有内在的依赖关系,可以独立地应用到企业信息系统的建设之中, 以提高信息系统相应的能力。但是,这三种技术

2、之间确实存在着一定的联系性和互补性,把 它们结合起来,就可以使它们的能力更充分地发挥出来。这样就形成了一种决策支持系统的 架构,即 DW+OLAP+DM。1、数据仓库技术 概述数据仓库是一种只读的、用于分析的数据库,常常作为决策支持系统的底层。它从大量 的事务性数据库中抽取数据、并将其清理、转换为新的存储格式,即为了决策目标而把数据 聚合在一种特殊的格式中。数据仓库是支持管理决策过程的、面向主题的、集成的、随时间 变化的、但信息本身相对稳定的数据集合。其中,“主题”是指用户使用数据仓库辅助决策 时所关心的重点问题,每一个主题对应一个客观分析领域,如销售、成本、利润的情况等。 “面向主题”就是指

3、数据仓库中的信息是按主题组织的,按主题来提供信息。“集成的”是 指数据仓库中的数据不是业务处理系统数据的简单拼凑与汇总,而是经过系统的加工整理, 是相互一致的、具有代表性的数据。“随时间变化”是指数据仓库中存储的是一个时间段的 数据,而不仅仅是某一个时间的数据,所以主要用于进行时间趋势分析。一般数据仓库内的 数据时限为5到10年,数据量也比较大。“信息本身相对稳定”是指数据一旦进入数据仓 库,一般情况下将被长期保留,变更很少。 数据仓库组织和管理数据的方法与普通数据库的不同点主要表现在三个方面: 它依据决策要求,只从数据库中抽取那些需要的数据,并进行一定的处理。 数据仓库是多维的,即数据仓库中

4、数据的组织方式有多层的行和列。 它支持决策处理,不同于普通的事务处理。 数据仓库需要的数据库技术的支持: 并行数据库技术:数据仓库中的数据量很大,一般要达到 GB 级,有的甚至要到 TB 级。对于处理如此大规模的数据,使用并行技术对提高运行效率是很有帮助的。 高性能的数据库服务器:传统数据库的应用是操作型的,而数据仓库的应用是分析 性的,它需要有高性能的数据库服务器配合工作,对DBMS核心的性能也有更高的要求。 数据库互操作技术:数据仓库的数据来源多种多样,可能来自数据库,也可能来自 文件系统。即使都来自数据库,这些数据库也往往是异构的。为了从这些异构数据源中定期 抽取、转换和集成所需要的数据

5、存入库中,异构数据源之间的互操作技术是必需的。2、联机分析处理技术联机分析处理是针对特定问题的联机数据访问和分析,通过对信息进行快速、稳定、一 致和交互式的存取,对数据进行多层次、多阶段的分析处理,以获得高度归纳的分析结果。 联机分析处理是一种自上而下、不断深入的分析工具,在用户提出问题或假设之后,它负责 提取出关于此问题的详细信息,并以一种比较直观的方式呈现给用户。联机分析处理技术的 发展速度很快,在数据仓库的概念提出不久,联机分析处理的理论及相应工具就被相继推出 了。联机分析处理要求按多维方式组织企业的数据。多维数据库的发展使决策分析中的数据 结构和分析方法相分离,才有可能研制出通用而灵活

6、的分析工具,并使分析工具产品化。决 策分析需要从不同的角度观察分析数据,以多维数据为核心的多维数据分析是决策的主要内 容。多维数据库是以多维方式组织数据的。目前,联机分析处理的工具可分为两类:一类是 基于多维数据库的,另一类是基于关系数据库的。两者的相同点是基本数据源仍是数据库和 数据仓库,都是基于关系数据模型的,都向用户显示多维数据视图;不同点在于,前者把分 析所需的数据从数据仓库中抽取出来,物理地组织成多维数据库,而后者则是利用关系表来 模拟多维数据,并不是物理地生成多维数据库。3、数据挖掘技术数据挖掘的基本思想是从数据中抽取有价值的信息,其目的是帮助决策者寻找数据间潜 在的关联,发现被忽

7、略的要素,而这些对预测趋势和决策行为也许是十分有用的。从数据库的角度看,数据挖掘就是这样一个过程,它从数据库的数据中识别出有效的、 新颖的、具有潜在效用的并最终可理解的信息(如规则、约束等)的非平凡过程。非平凡是 一个数学概念,即数据挖掘既不是把数据全部抽取,也不是一点儿也不抽取,而是抽取出隐 含的、未知的和可能有用的信息。从决策支持的角度看,数据挖掘是一种决策支持的过程,主要基于人工智能、机器学习、 统计学和数据库技术等多种技术,能高度自动地分析企业原有的数据,进行归纳推理,从中 挖掘出潜在的模式,预测客户的行为,帮助企业决策者调整市场策略,从而减少风险、辅助 做出正确的决策。它是提高商业和

8、科学决策过程中的质量和效率的一种新方法。数据挖掘和联机分析处理都可以在数据仓库的基础上对数据进行分析,以辅助决策。其 中,联机分析处理还是一种传统的决策支持方法,即,在某个假设的前提下通过数据查询和 分析来验证和否定这个假设,所以联机分析处理是一种验证性的分析。与联机分析处理不同, 数据挖掘是数据驱动的,是一种真正的知识发现方法。使用数据挖掘工具,用户不必提出确 切的要求,系统能够根据数据本身的规律性,自动地挖掘数据潜在的模式,或通过联想,建 立新的业务模型,帮助决策者调整市场策略,并找到正确的决策,这显然有利于发现未知的 事实。从数据分析深度的角度看,联机分析处理位于较低的层次,而数据挖掘则

9、处于较深的 层次。所以,联机分析处理和数据挖掘的主要差别就在于是否能自动地进行数据分析。4、决策支持系统在传统的决策支持系统中,数据库、模型库和知识库往往被独立地设计和实现,因而缺 乏内在的统一性。而以数据仓库为中心、事务处理和数据挖掘为手段的新方案很好地解决了 这个问题。如图4.18 所示 数据仓库解决了数据不统一的问题。数据仓库自底层数据库收集大量事务级数据的 同时,对数据进行集成、转换和综合,形成面向全局的数据视图,形成整个系统的数据基础。 联机分析处理从数据仓库中的集成数据出发,构建面向分析的多维数据模型,利用 这个带有普遍性的数据分析模型,用户可以使用不同的方法,从不同的角度对数据进

10、行分析, 实现了分析方法和数据结构的分离。 数据挖掘以数据仓库和多维数据库中的大量数据为基础,自动地发现数据中的潜在 模式,并以这种模式为基础自动做出预测。数据挖掘反过来又可以为联机分析处理提供分析 的模式。正是由于数据仓库、联机分析处理和数据挖掘这三种技术的联系性和互补性,使他们从 不同的角度为决策支持服务。随着企业竞争的日益加剧,这种新型的决策支持系统解决方案 将受到越来越多的企业的青睐。数据库技术与电子商务数据库技术对电子商务的支持是全方位的,从底层的数据基础到上层的应用都涉及到数据库技术。其结构如图4.19 所示。1、数据的收集、存储和组织决簞支持系统管理信息系统这是传统数据库系统的主

11、要功能,对于参与电子商务的企业而言,数据的来源不仅仅是 企业内部管理信息系统,还包括大量的外部数据。数据是企业的重要资源,是决策的依据 是进行各种生产经营活动的基础和结果。2、决策支持这就要用到前面所提到的数据仓库解决方案。这时数据库中存储的数据依然是决策的依 据。决策关系到企业未来成败的关键。电子商务系统如果缺少好的决策支持功能,一方面是对电子商务海量数据资源的一种浪 费,另一方面也是对从事电子商务的企业的一种损失。3、对EDI的支持EDI是电子商务重要的组成部分,要想成功地实现EDI,企业的基础设施建设是关键, 而数据库系统的建设是其中重要的一环。如果有良好的数据库系统的支持,就可以实现应

12、用 到应用的EDI过程。这一过程是企业内部的管理信息系统依据业务情况自动产生EDI订单, 并传输给贸易伙伴;而对方传来的EDI单证也可以由系统自动解释,并存入相应的数据库, 整个过程无需人工干预。因此,业务数据库和EDI系统之间的接口就变得非常重要。这个接 口的功能可以概括为: 提供标准的信息格式定义。 与数据库管理系统的无关性。自动抽取数据库中的相关数据转换为Edi单证格式。自动抽取EDI单证的关键数据存储到数据库中。在这一过程中,可以设立一个EDI数据库专门用于有关EDI数据的处理。这样的管理方 式简单明了,但如果数据库之间的沟通不顺畅,就可能产生数据不一致的现象。4、Web数据库随着WW

13、W的不断发展,越来越多的企业加入到Web中来。当前许多企业纷纷在Web上开 发自己的主页来介绍自己的产品和服务。有的网页不仅有琳琅满目的产品信息和优惠的价 格,还配有详细的专家评论,牢牢抓住了网上用户的心理。企业不仅可以通过Web发布自己 的信息,同时也可以收集顾客的需求信息。这样给双方都带来了好处。对于企业而言,它不 仅可以用相对低的成本介绍和展示其产品和服务,也可以获得准确的客户需求信息。对于顾 客而言,浏览网页省时省力,而且可以及时把要求反映给厂家,定制出自己喜欢的产品。而 且,访问Web都是通过浏览器,这样就统一了界面,有利于行业标准化。Web数据库是一个新兴事物,Web与数据库的结合

14、,主要是源于两者各自的优势和缺陷。Web的特点Web上数据量大、类型多、缺乏组织和管理。目前Web中字节量的增长速度达到每月15% 以上。因为Web的链接资源是非官方的,所以Web的数据缺少规范。目前Web 上的数据主要 由静态HTML表达,其优点是表现能力强,链点跳转灵活,与平台无关。但由于Web页面结 构自由性大,致使Web 上的信息又多又混乱。就管理角度而言,Web的数据管理只相当于20 世纪70年代的文件管理水平。而且HTML文件动态更新特性差,用户很难得到最新的消息反 馈。 数据库技术的特点 当前的数据库管理系统已发展到相当成熟的阶段,能高效、高质、安全地管理数据。与 Web相比,数据库管理系统显得严谨而灵活不足。Web与数据库结合,可以集Web和数据库的诸优点于一身。前端有界面友好的Web浏览 器,后台则由成熟的数据库技术作支撑。这样无疑会给企业一个良好的应用环境。数据库是企业管理信息系统中用来管理信息的工具,所以数据库技术是渗透在其中,无 处不在的。电子商务作为新型的企业经营管理模式,当然也离不开数据库技术的支持。如今, 数据库技术正在为推进电子商务应用发挥巨大的作用,将来随着数据库技术飞速地发展,它 一定会为优化企业管理模式做出巨大的贡献。第6页共6页

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!