数据仓库,联机分析处理,数据挖掘DataWarehousing,

上传人:仙*** 文档编号:47073903 上传时间:2021-12-16 格式:PPT 页数:41 大小:268.50KB
收藏 版权申诉 举报 下载
数据仓库,联机分析处理,数据挖掘DataWarehousing,_第1页
第1页 / 共41页
数据仓库,联机分析处理,数据挖掘DataWarehousing,_第2页
第2页 / 共41页
数据仓库,联机分析处理,数据挖掘DataWarehousing,_第3页
第3页 / 共41页
资源描述:

《数据仓库,联机分析处理,数据挖掘DataWarehousing,》由会员分享,可在线阅读,更多相关《数据仓库,联机分析处理,数据挖掘DataWarehousing,(41页珍藏版)》请在装配图网上搜索。

1、数据仓库数据仓库,联机分析处理联机分析处理,数据挖掘数据挖掘Data Warehousing, OLAP, and Data Mining 数据仓库数据仓库 : 一个面向主题的、集成的、随时间变化的、非易失性数据的集合,用于支持管理层的决策过程。 OLAP 与与 数据挖掘工具数据挖掘工具 : 是两种主要的分析工具,提供给决策者对数据进行分析,以针对分析结果做出决策。概要概要数据仓库的引出数据仓库的引出 1.传统数据库以及OLTP(On-Line Transaction Processing 联机事务处理)在日常的管理事务处理中获得了巨大的成功,但是对管理人员的决策分析要求却无法满足。 2.因为

2、,管理人员常常希望能够通过对组织中的大量数据进行分析,了解业务的的发展趋势。而传统数据库只保留了当前的业务处理信息,缺乏决策分析所需要的大量的历史信息。 3.为满足管理人员的决策分析需要,就需要在数据库的基础上产生适应决策分析的数据环境数据仓库(Data Warehose)。数据仓库的定义与基本特性数据仓库的定义与基本特性 1. 数据仓库的定义 William H.Inmon在1993年所写的论著Building the DataWarehouse首先系统地阐述了关于数据仓库的思想、理论,为数据仓库的发展奠定了历史基石。文中他将数据仓库定义为: a data warehouse is a su

3、bject-oriented, integrated, non-volatile, time-variant collection of data in support of management decisions. 一个面向主题的、集成的、非易失性的、随时间变化的数据的集合,以用于支持管理层决策过程。 2.数据仓库的重要特性 a) subject-oriented(面向主题性面向主题性) 面向主题表示了数据仓库中数据组织的基本原则,数据仓库中的数由数据都是围绕着某一主题组织展开的。由于数据仓库的用户大多是企业的管理决策者,这些人所面对的往往是一些比较抽象的、层次较高的管理分析对象。例如,企

4、业中的客户、产品、供应商等都可以作为主题看待。从信息管理的角度看,主题就是在一个较高的管理层次上对信主题就是在一个较高的管理层次上对信息系统的数据按照某一具体的管理对象进行综合、归类所形成息系统的数据按照某一具体的管理对象进行综合、归类所形成的分析对象。的分析对象。从数据组织的角度看,主题是一些数据集合,这些数据集合主题是一些数据集合,这些数据集合对分析对象作了比较完整的、一致的描述,这种描述不仅涉对分析对象作了比较完整的、一致的描述,这种描述不仅涉及到数据自身,而且涉及到数据之间的关系。及到数据自身,而且涉及到数据之间的关系。 数据仓库的集成性是指根据决策分析的要求,将分散于各处的源数据进行

5、抽取、筛选、清理、综合等工作,使数据仓库的数据具有集成性。b) integrated (数据集成性数据集成性) 数据仓库在从业务处理系统那里获取数据时,并不能将源数据库中的数据直接加载到数据仓库中,而是需要进行一系列的数据预处理,即数据的抽取、筛选、清理、综合等集成工作。 也就是说,首先要从源数据库中挑选出数据仓库所需要的数据,然后将这些来自不同数据库中的数据按照某一标准进行统一,即将不同数据源中的数据的单位、字长与内容按照数据仓库的要求统一起来,消除源数据中字段的同名异义、异名同义现象,这些工作称为数据的清理清理(clean),把数据仓库的数据呈现给用户一个一致统一的视图。 源数据加载到数据

6、仓库后,还要根据决策分析的 需要对这些数据进行概括、聚集处理。 数据仓库的时变性,就是数据应该随着时间的推移而变化。c) time-variant 数据的时变性 尽管数据仓库中的数据并不像业务数据库那样反 映业务处理的实际状况,但是数据也不能长期不 变,如果依据10前的数据进行决策分析,那决策 所带来的后果将是十分可怕的。 因此,数据仓库必须能够不断捕捉主题的变化数据,将那些变化的数据追加到数据仓库中去,也就是说在数据仓库中必须不断的生成主题的新快照,以满足决策分析的需要。数据新快照生成的间隔,可以根据快照的生成速度和决策分析的需要而定。 例如,如果分析企业近几年的销售情况,那快照 可以每隔一

7、个月生成一次;如果分析一个月的畅销产品,那快照生成间隔就需要每天一次。d) non-volatile 数据的非易失性 数据仓库的非易失性是指数据仓库的数据不进行更新处理,而是一旦数据进入数据仓库以后,就会保持一个相当长的时间。因为数据仓库中数据大多表示过去某一时刻的数据,主要用于查询、分析,不像业务系统中的数据库那样,要经常进行修改、添加,除非数据仓库中的数据是错误的。e) in support of management decisions 支持决策系统支持决策系统 数据仓库的组织的根本目的在于对决策的支持。高层的企业决策者、中层的管理者和基层的业务处理者等不同层次的管理人员均可以利用数据仓

8、库进行决策分析,提高管理决策的质量。 企业管理人员可以利用数据仓库进行各种管理决策的分析,利用自己所特有的、敏锐的商业洞察力和业务知识从貌似平淡的数据发现众多的商机。数据仓库为管理者利用数据进行管理决策分析提供了极大的便利。对比内容对比内容数据库数据库数据仓库数据仓库数据内容当前值历史的、存档的、归纳的、计算的数据数据目标面向业务操作程序、重复处理面向主体域、管理决策分析应用数据特性动态变化、按字段更新静态、不能直接更新、只是定时添加数据结构高度结构化、复杂、市和操作计算简单、适合分析使用频率高中到低数据访问量每个事务只访问少量记录有的事务可能要访问大量记录对相应时间的要求以秒为单位计量以秒、

9、分钟、甚至小时为计量单位数据仓库与传统数据库的比较数据仓库与传统数据库的比较 尽管OLTP系统和数据仓库有着许多不同的特性且基本构建思想不同,但是他们却是紧密联系的,因为OLTP系统是数据仓库的数据来源。 OLTP系统并不是为了快速回答查询,也不是为了存储分析趋势的历史数据而创建的。一般的,OLTP提供了大量的原始数据,这些数据不易被分析。 数据仓库需要回答更复杂的查询,而不仅仅使一些像“英国主要城市的商品平均销售价格是多少”之类的简单聚集数据查询。 数据仓库需要回答的查询类型可以是简单的查询,也可以是高度复杂的,且还与终端用户使用的查询工具相关。 DreamHome数据仓库的示例支持以下查询

10、:2001年第三季度,整个英格兰的总收入是多少?2000年英国每一类房产销售的总收入是多少?2001年租借房产业务中每个城市哪个地域最受欢迎?与过去的两年相比有何不同?每个分支机构本月的房产销售月收入是多少,并与刚过去的12个月相比较。如果对于10万英镑以上的房产,法定价格上升3.5%而政府税收下降1.5%,对英国不同区域的销售会产生什么影响?在英国主要城市中,哪种类型的房产销售价格高于平均房产销售价格?这与人口统计数据有何联系?数据仓库的一个案例数据仓库的一个案例 啤酒与尿布的故事啤酒与尿布的故事某大型超市发现每到周末,啤酒与尿布的销量就会同时大增,这是什么原因呢? 经过研究人员分析发现,原

11、来家里的太太们让丈夫们去超市给孩子买尿布,而丈夫们在买尿布的时候往往顺便买上几瓶啤酒回去喝。这样就产生了这个比较奇怪的现象。 沃尔玛早年利用NCR数据仓库技术,对商品进行市场类组分析,即分析哪些商品顾客最有希望一起购买。沃尔玛利用NCR自动数据挖掘工具(模式识别软件)对一年多详细的原始交易数据进行分析和挖掘。一个意外的发现就是:跟尿布一起购买最多的商品竟是啤酒!沃尔玛就在它的一个个商店里将它们并排摆放在一起,结果是尿布与啤酒的销售量双双增长。 来自美国俄亥俄州的NCR公司(纽约证券交易所股票代码为NCR)是全球领先的信息技术公司之一,为全球超过130个国家提供零售解决方案,业务涵盖食品店、药店

12、、综合性商场、超市、连锁店及餐饮业等市场,2001年总收益达59.17亿美元。世界十大零售商中,就有六家应用NCR提供的零售业全面解决方案。数据仓库的体系结构数据仓库的体系结构 图示: datawarehouse_av.gif 操作型数据操作型数据 加载管理器加载管理器 : 执行所有与提取和装载数据到数据仓库的有关操作。 仓库管理器仓库管理器 : 执行管理一个数据仓库数据所有的必要程序,它可以由一些外购的数据管理工具和针对特殊需要编写的程序组成。包括以下工作:1.数据分析以确保一致性 2.将临时存储介质中的数据转换和合并后加载到数据仓库表中 3.为基础表创建索引和视图 4.依据需要,对数据进行

13、弱规范化5.依据需要,生成聚集信息6.备份和归档数据 查询管理器查询管理器 : 执行所有数据仓库中与查询工作相关的管理工作。 细节数据细节数据 : 数据仓库中存储了许多数据库模式中的细节数据 轻度和高度综合数据轻度和高度综合数据 : 数据仓库中存放了许多由 仓库管理器产生的预定义的轻度或高度综合(聚集的)数据。 存储存储/备份数据备份数据 : 数据仓库中存储了用于备份和存档的许多细节和综合数据。尽管综合数据是从细节数据中产生的,但还是有必要备份这些综合数据,因为他们可能已经超过了细节数据的保持期。这些数据要转移到存储档案中,如磁盘或光盘上。 元数据元数据(metadata): 数据仓库中存储了

14、所有的元数据定义,这些定义可用于数据仓库中的所有过程。元数据的用途包括 : 1.数据抽取和加载过程: 元数据可用于将数据影射到数据仓库的通用数据视图中。 2.数据仓库管理过程: 元数据可用于自动产生表。 3.作为查询过程的一部分: 元数据可用于将查询指定到最合适的数据源。 终端用户访问工具终端用户访问工具 数据仓库的主要目的是为了给业务用户提供决策信息。这些用户通过终端用户访问工具与数据仓库交互。数据仓库必须有效地支持查询和例行分析。 这些工具一般分为 : a. 报表和查询工具 b. 应用程序开发工具 c. 可执行信息系统工具 d. 联机分析处理工具 e. 数据挖掘工具OLAP技术技术 数据仓

15、库是管理决策分析的基础,要有效地利用数据仓库的信息资源,必须要有强大的工具对数据仓库的信息进行分析决策。On-line Analytical Processing(在线分析处理或联机分析处理在线分析处理或联机分析处理)就是一个应用广泛的数据仓库使用技术。它可以根据分析人员的要求,迅速灵活地对当量的数据进行复杂的查询处理,并以直观的容易理解的形式将查询结果提供给各种决策人员,使他们能够迅速准确地掌握企业的运营情况,了解市场的需求。发展背景发展背景60年代,关系数据库之父E.F.Codd提出了关系模型,促进了联机事务处理(OLTP)的发展(数据以表格的形式而非文件方式存储)。1993年,E.F.C

16、odd提出了OLAP概念,认为OLTP已不能满足终端用户对数据库查询分析的需要,SQL对大型数据库进行的简单查询也不能满足终端用户分析的要求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此,E.F.Codd提出了多维数据库和多维分析的概念,即OLAP。 OLTP数据 OLAP数据 原始数据 导出数据 细节性数据 综合性和提炼性数据 当前值数据 历史数据 可更新 不可更新,但周期性刷新 一次处理的数据量小 一次处理的数据量大面向应用,事务驱动 面向分析,分析驱动面向操作人员,支持日常操作 面向决策人员,支持管理需要二、什么是二、什么是OLAP

17、? 定义定义1 :OLAP(联机分析处理联机分析处理)是针对特定问题的联机数据访问和分析。通过对信息(维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。 定义定义2 :OLAP(联机分析处理联机分析处理) 是使分析人员、管理人员或执行人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。(OLAP委员会的定义) OLAP的目标的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”这个概念,因此OLAP也可以说是多维数据分

18、析工具的集合。相关基本概念相关基本概念 1.维:维:是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维(时间维、地理维等)。 2.维的层次:维的层次:人们观察数据的某个特定角度(即某个维)还可以存在细节程度不同的各个描述方面(时间维:日期、月份、季度、年)。 3.维的成员:维的成员:维的一个取值。是数据项在某维中位置的描述。(“某年某月某日”是在时间维上位置的描述) 4.多维数据集多维数据集:是决策分析的支柱,OLAP的核心,有时也称立方体或者超立方。OLAP展现在用户面前的是一幅幅多维视图。多维数据集可以用一个多维数组来表示。 5.多维数组:多维数组:维和变量的组合表示。一

19、个多维数组可以表示为:(维1,维2,维n,观察变量)。(时间,地区,产品,销售额) 6.数据单元数据单元(单元格单元格):多维数组的取值。(2000年1月,上海,笔记本电脑,$100000)三层数据仓库结构 底层数据仓库服务器,使用称作网间连接程序的应用程序,由操作数据库和外部数据源提取数据. 中间层是OLAP服务器,实现方法有 关系OLAP模型ROLAP 在多维数据上的操作映射为标准的关系模型 多维OLAP模型MOLAP 直接实现多维数据的操作 顶层是客户,它包括查询和报告工具,分析工具和数据挖掘工具(例如趋势分析,预测等)业务处理系统数据准备区数据仓库OLAP服务器客户端可视化处理底层底层

20、中间层中间层顶层顶层数据抽取数据抽取数据清理数据清理 转换转换多维化多维化数据加载数据加载OLAP的特性1. 快速性. 用户对OLAP的快速反应能力有很高的要求。2. 可分析性. OLAP系统应能处理与应用有关的逻辑与统计分析。3. 多维性. 多维性是OLAP的关键属性。系统能够提供对数据分析的多维视图和多维分析。4.信息型. 不论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息,并且管理大容量信息。OLAP多维数据分析多维数据分析 1.1.切片和切块切片和切块(Slice and Dice)(Slice and Dice)在多维数据结构中,按二维进行切片,按三维进行切块,可得

21、到所需要的数据。如在“城市、产品、时间”三维立方体中进行切块和切片,可得到各城市、各产品的销售情况。 2.2.钻取钻取(Drill)(Drill) 钻取包含向下钻取(Drill-down)和向上钻取(Drill-up)/上卷(Roll-up)操作, 钻取的深度与维所划分的层次相对应。 3.3.旋转旋转(Rotate)/(Rotate)/转轴转轴(Pivot)(Pivot)通过旋转可以得到不同视角的数据。OLAP的分析方法的分析方法(一一)切片切片(slicing)、切块、切块(dicing)OLAP的分析方法的分析方法(二二)钻取钻取(drill-down)按时间维向下钻取按时间维向上钻取60

22、OLAP的分析方法的分析方法(三三)旋转旋转数据挖掘技术数据挖掘技术 数据挖掘的引出数据挖掘的引出1989年8月,在第11届国际人工智能联合会议的准题研讨会上首次提出了基于数据库的知识发现(KDD, Knowledge Discovery in Database)技术。涉及到机器学习、模式识别、统计学、智能数据库、知识获取、专家系统、数据可视化、高性能计算等领域。1995年,在美国计算机年会(ACM)上,提出了数据挖掘(DM, Data Mining)的概念,即通过从数通过从数据库中抽取隐含的、未知的、具有潜在使用价值的据库中抽取隐含的、未知的、具有潜在使用价值的信息的过程。信息的过程。数据挖

23、掘是KDD过程中最为关键的步骤。数据挖掘的定义数据挖掘的定义 1.从技术调度看 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中提取隐含在其中的、人们所不知道的但又是潜在有用的信息和知识的过程。 2. 从商业应用角度看 数据挖掘是一种崭新的商业信息处理技术,其主要特点是对商业数据库的大量业务数据进行抽取、转化、分析和模式化处理,从中提取辅助商业决策的关键知识,即从一个数据库中自动发现相关商业模式。数据挖掘技术主要的四个相关的操作 预测性建模 数据库分段 连接分析 偏离检测表表 数据挖掘应用的示例数据挖掘应用的示例 零售/市场 识别顾客的购买模式 发现顾客人口统计特征方面的关联 预测对邮寄促销活动的反映 市场购物分析 银行 发现伪信用卡使用模式 识别诚信顾客 预测可能更换信用卡的顾客 确定不同顾客群使用信用卡消费的情况表表 数据挖掘应用的示例数据挖掘应用的示例(续续) 保险 需求分析 预测购买新险种的顾客 医药 分析病人情况以预计手术安排 发现药物对不同病的疗效

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!