数据仓库设计

上传人:仙*** 文档编号:33450023 上传时间:2021-10-17 格式:DOC 页数:24 大小:261KB
收藏 版权申诉 举报 下载
数据仓库设计_第1页
第1页 / 共24页
数据仓库设计_第2页
第2页 / 共24页
数据仓库设计_第3页
第3页 / 共24页
资源描述:

《数据仓库设计》由会员分享,可在线阅读,更多相关《数据仓库设计(24页珍藏版)》请在装配图网上搜索。

1、数据仓库设计 DW设计是一个操作型系统设计方法演变而来的范例。DW设计者不仅要设计一个数据库(DW用DB实现)和一个用户接口(数据展现部分)。而且还必须设计数据与OLTP系统的接口,数据装载策略,数据存取工具,用户培训方案和不间断的维护方案。即必须考虑许多在操作型系统设计中不必考虑的问题。本章的意图就是帮助你完善的理解如何建立和实现DW和在一个完整的DW设计必须考虑的问题。 本章的主要内容:1 数据仓库的生命周期2 数据仓库的方法论3 数据仓库的规划4 数据仓库的技术体系结构5 数据仓库的数据模型设计6 数据仓库的粒度设计7 数据仓库的开发8 数据仓库解决方案31数据仓库的生命周期。按照生命周

2、期发法可将数据仓库开发的全部过程分成三个阶段:1 数据仓库规划分析阶段2 数据仓库设计实施阶段3 数据仓库的应用阶段这三个阶段不是简单的循环往复,而是不断完善提高的过程。一般情况下数据仓库系统都不可能在一个循环过程中完成,而是经过多次循环开发,每次循环都会给系统增加新的功能,这种循环的工作永远不会终结,数据仓库也就一直处于一个不断完善、不断提高的循环玩傅过程中。一 数据仓库开发的生命周期规划与确定需求开发概念模型数据仓库评价数据仓库维护数据藏库应用数据装载预测试开发中间件确定数据抽取源数据库于远数据设计设计体系结构开发逻辑模型数据仓库开发过程 规划分析阶段 使用维护阶段 设计实施阶段 图3-1

3、 数据仓库开发的生命周期 DW的开发与应用的阶段是对DW开发应用的生命周期描述。按照生命周期法可将DW开发应用的全过程分成:DW规划分析、DW设计实施和DW应用三个阶段,完成这三个阶段并不意味着DW开发的终止,而是DW开发向更高阶段发展的一个转变。一方面通过这三个阶段的DW开发积累了DW开发应用经验,可对原DW提出改进的建议,使原DW通过改进得到提高,另一方面,用户新的需求也会丰富原DW的设计,这就是螺旋式周期性开发方法。1 DW规划分析阶段调查、分析DW环境,完成DW的开发规划,却定DW开发需求,建立包括实体图、星型模型、雪花模型、元数据模型及数据源分析的主题域数据模型,并且根据主题域数据模

4、型开发DW逻辑模型。2 DW设计实施阶段根据DW的逻辑模型设计DW体系结构;设计DW域物理数据库,用武力数据库元数据装载面向最终用户的元数据库;为DW中每个目标字段确定他在业务系统或外部数据源中的数据来源;开发或购买用于抽取、清洗、转换和聚合数据等中间件程序;将数据从数据源加载到DW,并且进行测试。3 DW使用维护阶段DW投入使用,且在使用中改进、维护DW;对DW进行评价,为下一个循环开发提供依据。二DW开发的特点DW的使用就是在DW中建立决策支持系统应用,这与业务处理系统应用环境有本质的区别,这也导致DW开发与传统的OLTP系统开发载开发出发点、需求确定、开发过程中有相当大的不同。1 数据仓

5、库的开发是从数据出发的创建DW是在原有的数据库系统中的数据基础上进行的,即从存在于操作性环境的数据出发,进行DW的创建工作,我们称之为“数据驱动”。数据驱动设计方法的中心是利用数据模型有效的识别原有的数据库中的数据和DW中主题的数据“共同性”。2 DW使用的需求不能再开发初期完全明确面向应用的数据库系统设计往往有一组教确定的应用需求,这是数据库系统设计的出发点和基础。而在数据仓库环境中,并不存在操做型环境中的固定的且较确切的物流、数据流、和信息流,数据分析处理的需求更加灵活,更没有固定的模式,甚至用户自己也对所要进行的分析处理不能事先全部确定。因而在DW开发初期不能明确了解DW用户的全部使用需

6、求。3 数据仓库的开发是一个不断循环的过程,是启发式的开发 DW的开发是一个动态反馈和循环的过程,一方面DW的数据内容、结构、力度、分割以及其他物理设计应该根据用户所返回的信息不断的调整和完善,以提高系统的效率和性能;另一方面,通过不断理解用户的分析需求,不断的调整和完善,以求向用户提供更准确、更有效的决策信息。 3.2 数据仓库开发的方法论 建立一个DW一般需做以下五个方面的工作:1、任务和环境的评估。2、需求的收集和分析。3、构造DW。4、DW技术的培训。5、回顾、总结和再发展。一、 任务和环境的评估 1、目标:因为数据仓库是建立在原有的运行系统之上的,因此要结合单位的现状来明确数据仓库的

7、目标任务。了解数据源所在系统和其中数据的状况、数据类型、工作平台、数据量、数据质量、DW的环境、网络技术状况。 2、目的: 看DW的任务是否可行。 所建立的DW是否是用户所期望的。 有没有不逾越的障碍。 确定DW系统成功与否的基本原则。 3、组织:高层负责人参加并组织项目组。 人员:项目总负责人 与DW相关的业务部门负责人 计算机软/硬件负责人 DBA 网络人员 4、项目组的任务:初步确定主题 主题的层次结构二、 需求的收集和分析。 1、任务: 了解决策者现在的工作目标。 现在获得决策支持信息的方法、渠道。 和竞争对手的差距。 决策者希望DW提供什么。 制定系统的逻辑模型。 分析数据源的物理存

8、储状况、运行平台、数据质量、硬件、软件和网络的限制条件。 2、分析文档。 项目概述。差距分析。系统基本架构图示。逻辑模型。物理模型。DW的初始装载和更新策略。 DW的运行计划。决策信息展现的希望和需求。 DW建成的时限。三、 构造DW构造数据仓库包括数据仓库的管理、数据仓库的组织和决策支持信息的展现三部分。 设计和编写数据抽取程序/工具。 设计和编写数据转换程序/工具。 1、DW的管理 设计和编写数据更新程序/工具。 设计和编写运行的接口程序。 建立这一阶段的所有管理的数据(元数据) 程序统一标准命名、建档。 初始装载 建立索引2、DW的组织 建立数据视图 DW及工作平台的安全检查 装入数据和

9、应用功能建立此阶段的元数据。3、决策支持信息的展现 利用多维数据展现、数据挖掘等一些工具可预先制作好许多常规的信息市场项目供支持决策使用,也可以直接操作主题数据以得出新的决策支持信息。四、 数据仓库技术的培训。 培训内容:1、DW中的数据内容(包括逻辑模型、物理模型)、数据质量。 2、元数据的内容、位置,如何使用。 3、用户界面和功能介绍。4、数据更新计划。5、DW的安全规则。6、从OLTP到DW的数据流。7、全部的数据转换工作。8、数据装载和更新的策略。五、 回顾、总结和再发展。 1、哪些地方可以做得更好。2、业务部门对开发的支持是否到位。3、双方如何合作得更好。4、什么是业务部门立竿见影的

10、效益。5、主题选择是否得当。6、阶段成果是什么?反映如何?7、DW采用是否提高了公司的竞争力。8、投资回报率是否达到预计的水平。六、 SAS数据仓库方法论 见图3-2评 估 需求调查 主要数据模型和DW 主题的选择总 结设 计 设计DW结构、数据建摸、过程建摸构 建 物理的DW 组装、应用程序编码,测试、验收 部 署 、把DW展示给业务用户,培训 图 3-2 SAS数据仓库方法论总结:1、总结早期项目实施成功和失败的经验和公布以后努力的结果。2、应用配置是否如愿实现,如有必要须调整计划。3、评估项目对单位的影响和得益。 3.3 数据仓库的技术体系结构 DWS的技术体系结构如图3-2所示数据获取

11、模块数据管理员模块 DW的数据信息目录模块DW的元数据数据传递模块中间件模块数据访问模块设计模块 管 理 模 块数据源外部元数据外部数据图3-3 DataBase Association 公司定义的DW技术体系结构一、 设计模块功能:是由DW的设计者和管理者来设计和定义的DW的。在设计DW时必须考虑到的其他因素还包括DB和瞬时数据的处理。某些DW数据库还包括星型模型的非规范化DB设计。二、 数据获取模块功能:用于开发和运行数据获取应用程序,从源系统中获取数据并加到DW中。内容:1、数据抽取规则界定数据源。2、数据情况记录和字段的重组,增补丢失的字段值,数据的整性和一致性检查。3、数据增强字段值

12、的解码和转换,增加时间属性(若没有),数据的概括或者衍生值的计算。4、数据传输。5、生成的定义作为元数据存入信息目录模块。三、 数据管理员模块。功能:是DW用来生成、管理和访问仓库中数据(很可能还有元数据)的模块。一般使用RDBMS或MDBMS(多维DBMS)。四、 管理模块。 功能:完成维护DW环境的系统管理服务。 内容:1、管理数据获取操作。 2、仓库数据归档。 3、仓库数据备份。 4、仓库数据恢复。 5、访问DW的安全及授权等。五、 信息目录模块功能:帮助技术用户和业务用户访问DWS,通过一套维护和观察仓库元数据的工具实现这一功能。主要元素:1、源数据管理员:维护、输入/出仓库元数据。

13、2、技术元数据。 3、信息助理:为最终用户提供访问元数据的简单方法,有些产品能帮助用户产生、编写、运行查询、报表、分析并预定仓库中找不到数据和信息。六、 数据访问模块功能:提供访问工具,使用户访问和分析仓库中的数据。访问工具:1、查询、报表自动生成和数据分析工具。 2、能访问RDBMS的多维分析工具。 3、能访问MDBMS的多维分析工具。 4、运行4GL或可视化程序设计语言的DSS应用程序开发工具。七、 中间件模块功能:将DW数据与最终用户工具连接起来,专门中间件: 智能数据仓库中间件位用户提供从业务角度、数据仓库的视角;并能监视和跟踪对DW的访问情况。分析服务器能改善对RDBMS数据进行多维

14、分析的效果。八、 数据传递模块功能:将数据集合分布到其他DW和最终用户产品中,如电子报表。数据的传递可以在一天中的某一时刻进行,也可以在一个外部事件结束时进行。 3.4数据模型设计 在创建DW时需要使用各种数据模型对DW进行描述,DW的开发人员依据这些数据模型才能开发出一个满足用户需求的DW。DW的各种数据模型在DW的开发中作用很大,主要体现在模型终止旱由于设计有关的属性,排除了无关的信息,突出了与任务相关的重要信息,是开发人员能够将注意力集中在DW开发的主要部分。因此,数据仓库的设计和OLTP系统的设计一样,也需要先进行模型的设计。一、 不同层次模型之间的关系.。1、 企业数据模型:特点:只

15、包含原始数据。OLTP、DW的数据模型均源于企业模型。2、 操作型数据模型特点:基本等价于企业数据模型。在数据库设计之前要加入性能因素。3、 DW数据模型。特点:去掉纯操作性数据。给键码增加时间因素合适之处增加导出数据把OLTP系统中数据关系变为人工关系。4、 不同层次模型之间的关系(1) OLTP系统的数据模型来源于企业数据模型。 (2) DW数据模型源于OLTP系统数据模型以及企业数据模型。二、 DW数据模型的设计1DW数据模型的种类:(1) 概念模型DW的概念模型是一个DW的粗略蓝本,以此为工具却人DW的设计者是否已经正确的理解了DW最终用户的信息需求。在概念模型的设计中,必须将注意力集

16、中在对上午的理解上,保证DW的所有业务都被归纳进概念模型。(2) 逻辑模型 DW的逻辑模型是维度模型,采用星型模型或雪花模型。在星型模型中主要设计事实表和维度表。 (3) 物理模型关系表在物力上实现的模型。通常进行索引、簇集和视图的设计等,以及为提高性能而作的一些工作。 (4) 元数据模型 OIM 模型Ralph Kimball 提出的总线模型 总线模型的基本思想是将其他需要元数据或产生元数据的设施都连接到这一总线上,这样就可以实现数据内部的移动。(5) 粒度模型 单粒度模型,在系统中只设计一个粒度 多粒度模型,在系统中涉及多个粒度,低粒度,中粒度,高粒度并存。 混合粒度, 在系统中,有些维度

17、用单粒度,有些维度用多粒度。 (6)数据模型关系图 数据模型关系图如图3-4所示。现实世界数据仓库概念模型物理模型逻辑模型元数据模型数据粒度模型图3-4 数据模型关系图 2.概念模型设计 在设计DW的概念模型时,可以采用在业务处理系统中经常采用的实体联系模型,即ER图。这是一种描述组织概况的蓝图,包括整个组织系统中各个部门的业务处理业务处理数据,蓝图设计中涉及各个部门所需要的元数据,并且提供本部门所拥有系统的元数据。从概念模型中应体现出那些部门需要那些共同的数据。 设计方法 首先在建模之前定义数据模型的边界 先建立企业内不同群体的实体-联系模型,然后进行集成企业的总体概念模型 注意事项 在DW

18、的数据模型中不包含操作性数据,只包含用户感兴趣的分析数据、描述数据和细节数据例:在商品销售分析DW模型中商品的销售数量、金额、企业利润等是分析数据销售的时间、地点等使用户感兴趣的描述数据销售产品的详细情况、购买商品的客户详细情况等时细节数据。 数据的历史变迁性DW的数据模型增加时间属性作为码的一部分,在DW的数据模型中需要反映销售组织的历史变迁、业务的发展,而业务处理系统质包含当前数据 数据的概括性DW的数据模型中增加了一些衍生数据,专门用于分析的DW系统需要一些概括性的数据,这些数据在业务处理系统的数据模型重视不需要的。 示例: 业务描述 有一家大型杂货连锁店,其业务涵盖分布在美国5个州范围

19、内的100多家杂货店。每个商店都有完整的配套部门,包括杂货、冷冻食品、奶制品、肉制品、农产品、面包店、花卉门市等,共有6万多品种的产品放在货架上。每个品种的产品被称作村储藏单位(SUK),这些产品来自外部厂家,并在包装上印有条形码,这些条形码被叫做统一产品编码(UPC).数据从杂货店中收集在POS(Point Of Sale)机中。管理目标 如何时产品的订购、储存、与销售运作能最大限度的实现利润,而开展后勤工作。要实现管理目标,就要进行以下方面的工作1) 降低采购成本2) 降低额外开销3) 尽可能多的吸引客户4) 开展促销活动 如:临时降价、做广告、廊端展销、发行优惠卷等。概念设计 根据业务描

20、述和管理目标,抽象出实体有:商店、采购、供应商、仓库、销售、客户、促销、财务等。 这些实体之间的关系用ER图表诗如图3-商店促销客户销售财务仓库供应商采购 图3-5 零售分析ER图3. 逻辑模型设计1) 逻辑模型表示维度建模是一种逻辑技术,这种技术试图采用某种直观的标准框架结构来表现数据,一般设计成星型模型结构。 例如,零售业营销分析的星型模型如图 3-6 所示 产品维时间键产品键商店键客户键职员键销售额成本金额产品键描述品牌类别包装类型尺寸客户键客户姓名购买介绍信用概况统计类型地址日期星期几星期数月份商店键商店标示号商店名称地址地区楼层类型促销键待定促销属性 时间维 零售营销 商店维 客户维

21、 促销维 图36 逻辑设计示例 2逻辑模型与实体-关系建模之间的关系实体联系图是代表企业中每一个可能的业务过程,一个实体联系图可以拆分成多个有维表、事实表构成的逻辑模型。由于E-R图在一个图中表示多个处理,因此将E-R图转换成维度建模时的步骤是:(1) 将E-R图分成独立的业务处理,然后对每个业务处理单度建模。(2) 在E-R图中,对包含数字型事实和可加性非码事实的实体,选择其中的多对多关系,并且将他们设计成各个事实表。(3) 将剩下的实体进行非规范化处理,涉及称为表。如果一个维表连接到一个以上的事实表,这个维表一定设计成一致性维度表。大型企业数据仓库的主维度模型大致包括10-25个星型模型,

22、每个星型模型通常连接515个维表。在进行设计时,不同事实表之间就能共享其中的许多维表。 3基本设计技术(1) 正确区分事实、属性和维度维度模型需要队事实和属性进行区分,业务层的很多事实都是数值型的,特别是该数值是浮点数时,他很可能是一个事实,而不是属性。 例如“标准价格”,好像是产品维度的一个属性,似乎是事先一致的常量,但每年对标准价格进行一、两次调整,因此应该设计成事实。 属性通常指文本字段,例如产品描述。 维度是类似于文本形式的属性组合,固定的数值型属性应放在维表中。 例如,零售数据仓库中,至少应有一个产品维度,一个商店维度,一个客户维,一个时间维,一个促销维。 (2)事实表的设计方法事实

23、表时数据仓库中最大的表,在设计时,一定注意使事实表尽可能的小,因为过大的事实表在表的处理、备份和恢复、用户查询等方面要用较长的时间。具体方法主要有: * 减少列的数量* 降低每列的大小* 把历史数据存档* 对行进行分割例如 零售营销事实表设计如下:日期关键字产品关键字商场关键字促销关键字POS事务编号销售量销售额成本金额毛利润金额 (3)维表的设计维表的属性必须具有以下特征:# 可用文字描述# 离散值# 有规定的约束# 在分析时可提供行标题 时间维在数据仓库中占有特定位置,建议使用时间维度。 下面介绍Ralph Kimball 在数据仓库工具箱一书中设计的时间维、产品维、商场维。 时间维度表维

24、度属性维度属性日期关键字日历年月日期完全描述日历季度星期日历半年度纪元日编号日历年纪元周编号财政周纪元月编号年度财政周数日历日期编号财政月日历周编号年度财政月数日历月编号财政年月财政月日编号财政季度财政周编号财政季年度财政月编号财政半年度周末指示符财政年月末指示符节假日指示符日历周结束日期星期指示符年度日历周数销售时令日历月名重大事件年度日历月数其它产品维度表维度属性维度属性产品关键字重量产品描述重量单位商标描述储藏类型分类描述货架期类型部门描述货架宽度包装类型描述货架高度包装尺寸货架深度含脂量其它食物类型 商场维度表维度属性维度属性商场关键字平面布置类型商场名称摄影加工类型商场编号财政服务类

25、型商场所在街道地址销售面积商场所在城市总面积商场所在县首次开业日商场所在洲最后一次重修日期商场所在邮政编码其它商场所在政区商场经理商场所在地区4. DW物理模型的性能问题 提高DW性能的技术合并表把需连接的几个表的记录合并成一个表,物理的放在一起.建立数据序列 经常按某个固定顺序访问并处理一组数据记录,可严格按顺序存放到一个或几个连续的物理块中.引入冗余进行关系规范化的逆操作,即反规范化的处理 引入冗余和合并表的区别合并表示将两个或多个相关表的相关记录物理上放在一起,但逻辑上不变,仍是多表,没改变多表的关系模式,且合并表只是对表记录的存取策略的改进,并没有冗余的数据.引入冗余则是对表的关系模式

26、的改变.把原来规范化的表,变成有数据冗余的规范化级别低的表。表的物理分割分割依据:存取频率,数据的稳定性。生成导出数据事先在原始数据上进行汇总或计算,生成导出数据。优点: 减少I/O次数; 免去计算汇总步骤; 避免不同用户重复计算可能产生的误差建立广义索引DW中的数据量巨大,要依靠各种各样的索引技术来提高设计大数据量的查询的速度。在向DW装载数据时,就根据用户的需求建立广义索引概要文件,最大宗的购买,不活跃的用户,最近的发货等.5. 数据模型和反复开发反复开发的理由:* 业界成功的记录强烈的建议这样做* 最终用户在完成第一遍之前不能明白的提出需求* 只有实际结果切实而且明确时,管理部门才能做出

27、充分的承诺* 需要很快看到可视化结果数据模型在反复开发中的作用 数据模型在每遍开发中起着路标的作用,因为所有的开发都是数据模型驱动的,每遍后续开发都是建立在前一遍开发的基础上,结果就是都在统一的数据模型上进行不同的开发,各遍开发的结果将产生一个内聚的高度和谐的整体. 如果没有数据模型,重复的开发不能构成一个内聚的模式,有许多重叠和缺乏一致性.3.5 数据仓库的粒度设计DW开发中最重要的设计问题之一是决定DW的粒度,如果粒度设计恰当,则DW其他方面的设计和实现就较容易,它是体系结构设计环境成功的关键.粒度级别的选择主要是对管理多大数据量和使用数据单元详细程度的一种处理,数据越详细,粒度越小,级别

28、就越低;粒度越大,数据汇总级别就高.在本节介绍利用量纲分级和反馈技术确定粒度的方法和相关原则.一、粒度确定1粗略估计要确定合适的粒度级,首先要粗略估算DW中将来的数据量和所需的直接存取设备数(DASD) 其步骤如下:第一步:对每一个已知的表计算一个记录所占字节数的最大、最小值(按字节算)对一年内:可能的最大最小记录数对五年内:可能的最大最小记录数对每个表的关键字大小(字节数)一年总的最大空间=最大记录所占空间*一年内最大记录数一年总的最小空间=最小记录所占空间*一年内最小记录数累加索引空间第二步:对所有已知的表重复第一步粗略数据估计完后,就要计算一下索引所占的空间,对每张表确定关键字的长度和原

29、始表中是否每个记录都存在关键字。数据量估计的上限和下限就等于记录的最高估计数和最小估计数分别乘以记录的最大、最小长度再加上索引次数乘以索引的长度。2. 粒度划分过程的输入根据空间估算的结果,可将估计的记录数和DASD数作为粒度划分过程的输入,与粒度的阈值进行比较,看是应该采用那种粒度。 表3-1 粒度阈值表一年期 10,000,000 双重粒度级且认真设计1,000,000 双重粒度级100,000 认真设计 10,000 实际上任何设计都行五年期20,000,000 双重粒度级且认真设计10,000,000 双重粒度级1,000,000 认真设计100,000实际上任何设计都行表中的数据为记

30、录数对于五年期,行的总数大致以数量级改变。对五年以后的推测: 在管理DW中的大量数据时,将有更多的专门技术可用。 硬件费用有所下降 可以使用更强大的软件工具 最终用户更加专业化在分析时只考虑到DW中的记录数,而没有考虑总字节数,因为不管记录的字节长短,索引项的数量是没有变化的,因此被索引的记录的实际大小才影响决定DW是否采用双粒度级策略。3确定粒度级别 完成简单查询分析之后,就要确定粒度级别。基本方法: 猜测一个粒度(凭直觉、经验) 设计、载入数据到DW 让DSS分析员看到数据如不合理重复上述步骤。最终用户的态度:“既然我看到了我能够做些什么,我就能告诉你什么是真正有用的。” 4反馈循环的技巧

31、 反馈循环技巧 用很小而很快的步伐建立DW的最初几个部分,仔细听取用户的意见,随时准备调整。 使用原型法,并使用从原型中收集的观察结果而使反馈循环起作用 学习别人确定粒度的经验 与用户一起进行反馈处理 看看本机构现在有了什么在运转 进行联合应用程序设计会议,并模拟其输出已得到想要的反馈。 提高数据粒度的方法 当源数据置入DW时,对它进行汇总; 当源数据置入DW时,对它求平均或进行计算; 把最大/最小的设定值置入DW; 只把显然需要的数据置入DW; 用条件逻辑选取记录的一个子集置入DW;经验规则:在第一次的设计周期中,如果50%的工作是正确的,则整个设计就是成功的。5粒度划分学例 银行环境操作型

32、环境中约60天的业务数据由于其信息量较大,设计成双重粒度级。在DW中: 轻度汇总存十年的每月汇总的账户信息 当前细节级数据存30天 在这个级别并不是把OLTP系统中所有的字段都送到DW中,只有对分析有价值的信息字段才被存储。 30天之后,把这部分细节数据送到磁带上,腾出的空间存放下一个30天的当前细节级数据。 制造业环境OLTP系统中存放的是订单,由于量少,设计成单粒度,只要轻度综合,不要当前细节级。DW中存放10年的订单历史。36 数据仓库开发数据仓库的开发是一个基于不断循环、逐步增长的生命周期模式,是一个用户和开发人员对其不断了解、熟悉和完善的过程。本节提供可以用来指导开发数据仓库技术的准

33、则。可以把它当作一个框架,来展示不同类型DW 项目的定制方法。框架中的每一重大步骤都与实践联系紧密。除了提供方法之外,还指出每一步骤需要注意什么。一、 类属方法图3-7介绍了类属方法。其中步骤是不断循环的;每一步骤都提供了更多的细节,都可以循环执行,这幅图可以作为数据仓库开发的框架,而不是充分论述的具体方法。每个方框都代表了DW 项目中可能也应该采取的重大步骤。体系结构定义数据建模DW规划项目开端决策者的需求源系统分析变换设计物理数据库设计DW开发主题区分析最终用户访问设计最终用户访问开发DW 装载和实施最终用户访问定义 图37 类属方法 1. DW 项目规划 项目规划是开发DW的首要任务,只

34、有制定了正确的DW规划,才能组织主要力量有序的实现DW开发应用。 在DW规划中一般需要经过这样几步:选择实现策略;确定DW的开发目标和实现范围;选择DW体系结构;建立商业和项目规划预算。 (1)确定信息范围和开发目标 根据用户需求什么数据,确定需要那些数据源 初步确定主题 单主题或多主题。 确定时间范围 技术上的考虑,是否运用新技术。 DW内容的含义及质量。 确定最先使用DW的用户。 DW首先要满足那些决策查询 确定DW元数据库的规模 确定DW内部数据的规模 (2)选择实现策略 自顶向下,资底向上,混合法,原型法。 (3)确定项目组成员 (4)确定开发步骤以及项目管理战略 (5)确定DW体系结

35、构 (6)项目规划预算2定义体系结构 作用:为DW或DSS确定技术基础和应用程序基础结构,是的其他的活动易于控制,保证个模块能协调起来。3决策者的需求 (1)信息需求:原始数据元、需要计算或概括的数据元 (2)业务过程需求: Dw支持那些业务过程。 (3) 数据访问的需求:用户希望得到数据的过程,查询需求,报表需求,操作需求工作流程的分析等。4. 主题域分析主题领域-围绕一个主题的工作范围、内容。第一个选择的主题领域必须大到足以有意义,而又小到可以实现。如果有时某个主题领域确实大而且复杂,那么应该选择它的子集实现。工作内容:() 给出主题域范围() 根据所需的细节水平,初步确定粒度;() 生成

36、初步概括表。5、源系统分析作用:确定数据从何而来,对源数据的数据完整性数据质量和业务问题做出评价。功能:从现有的系统环境中为主题标识数据,产生从操作型环境到DSS环境的映射。工作内容:() 要列出可能成为数据源的系统或文件筛选;() 确认完整性和业务问题再次筛选,可能有处理异常;() 评价候选数据的质量、准确性和时效性,每个源系统都按照风险和使用收益区分了等级。除变换外,有些数据还需要清洁,故也要估计清洁的程度。() 源系统中出现不一致属性的处理,相应更新数据模型;() 分析源数据的使用情况;() 当源数据传给DW时应作何种变换。() 根据分析结果,创建DW 中数据结构() 源数据中的关系在D

37、W中如何体现。6变换设计功能:完成操作型环境和DSS环境的接口的数据变换,用于把数据从操作型引 入DW,同时保持数据的准确性和完整性。工作内容:() 数据变换规范:要确定是使用变动数据搜索法还是快照法,为建立一个完整的主题区,大多数环境必须在多个区段和文件中运行传送程序。() 设计数据变换过程要设计出能运行多种变换模块和变换程序的框架。输出包括时间和持续型在内的作业流。() 控制设计和评审程序:检验数据的传送是否足够大,变换是否正确。() 确认业务度量:I确定概括类型;II确定概括位置,分为DW内部和DW外部;III确定概括复杂粒度在捕获元数据的地方概括。() 历史数据转换过程;() 确定测试

38、数据集;() DW模型的修正。 7物理数据库设计 功能:详细说明并建立物理数据库 工作内容:() 建立域表;() 建立概括表() 星型连接和事实表() 建立索引() 备份和恢复8最终用户访问方法的设计、定义和开发9DW 开发功能:建立DW,并进行测试。工作内容:() 变换开发() 变换过程() 初步的数据加载() 控制和评审过程() 源数据的加载() 系统测试9 DW 装载及实施功能:完成DW数据的装载,并交付用户使用工作:() 装载运行() 软件实现() 数据培训和软件培训() 用户使用,接受测试。二 DW开发流程 数据仓库系统是一种体系结构,不是现成的产品。不同的企业会有不同的数据仓库。企

39、业人员往往不懂如何建立和使用DW,而DW公司人员又不懂业务,不知道建立那些决策主题,从数据源中抽取那些数据。因此需要双方互相沟通,共同协商开发数据仓库。1 启动工程 建立开发数据仓库工程的目标及制定工程计划。2 建立技术环境 选择实现建立开发数据仓的软硬件资源,包括开发平台、DBMS、开发工具、终端访问工具等。3 确定主题 根据决策需求确定主题,选择数据源,对建立开发数据仓的数据组织进行逻辑设计。4 设计数据仓库中的数据库5 数据转换程序实现6 管理元数据7 开发用户决策的数据分析工具。8 管理数据仓库环境3.7 解决方案一、SAS提供的数据仓库解决方案根据SAS白皮书编写、 SAS公司简介美

40、国North Carolina州立大学在1966年开始开发SAS(Statistical Analysis System)统计软件包。1997年成立SAS软件研究所,开始进行SAS的维护、开发、销售和教育工作。由于使用SAS系统成功地建立了许多卓有成效的数据仓库。SAS公司的DW产品在1996年被美国著名的“Datamation”评为“当年度最佳产品”。在金融、电信、交通、制造、政府以及科研教育部门提供全面的软件解决方案。在DW、HOLAP、DM、Web发布等都有产品,在商务智能、DW、DM 和DSS软件位于全球第一。、 SAS的数据仓库模型运行的提取数据质量数据EIS数据转换 查询机制Web

41、风险性关系DBMetadata将数据装入数据挖掘客户DW早期数据CIS产品结构运行机制 信息数据的可视化市场数据仓库操作SAS规划、内容管理预测其它数据管理组织展现 图 3-8 SAS的数据仓库模型3SAS数据仓库的组成() SAS系统的数据存取能力SASAccess产品可对众多不同格式的数据进行访问、查询和分析,提供了目前许多流行的数据库软件和老的数据文件的接口,如DB2、Oracle、Sybase、CA-Ingres等等。利用SASAccess可建立对应外部异构数据的一个统一的共同数据界面,提供的接口是双向的,既可将数据读入SAS系统,亦可在SAS系统中更新外部数据,或将数据加载到外部数据

42、载体中。() 数据的清理和整合在SAS的DW中有专门的机制进行引入数据的检查、核对和将不同来源数据进行整合的技术环节。() 数据仓库的加载和更新从数据源到数据仓库一气呵成的集成式操作的能力是SAS DW技术的重要特点。() 按决策需要重组数据和信息() 丰富的决策数据处理能力SAS/MDDB构造最适宜OLAP操作的多维数据结构;SAS/STAT覆盖了所有的数理统计分析方法,是国际上统计分析领域的标准软件;SAS/ETS提供丰富的计量经济学和时间序列分析方法,是研究复杂系统和进行预测的有力工具;SAS/OR提供了全面的运筹学方法;SAS/IML提供了面向矩阵运算的编程语言;SAS/Insight

43、可视化的数据探索工具,将统计方法和交互式图形统合在一起。() 灵活多样的结果展示方式SASGRAPH图形软件包。三、SAS数据仓库的体系结构 SASDW的体系结构见图3-8、 环境(Enviroment)环境是SAS DW体系结构的总根,由两部分组成:() 数据仓库;()对数据源的定义。构成了从数据采集到直接应用的完整的支持体系。、 DW可使用多个DW一个DW中有多个数据集市。、 主题(Subject)在每个主题中有一个主题表系统,其中放置与此主题相关的各种数据环境数据仓库主题主题表系统(存放经过清洗、整合的数据,可以是表或视图,结构重组)主题表主题表 汇总表组(定义数据汇总处理的层次维数和所

44、分析的变量)SAS或DBMS汇总层次SAS或DBMS汇总层次(表示所选择汇总处理的时间维)MDDB1MDDB汇总表组信息市场(决策支持信息)信息市场项目具体决策信息信息市场项目信息市场主题数据集市组数据集市数据集市信息市场信息市场数据集市组 数据仓库 运行数据定义组(对要从数据源取出的数据进行定义的分组)运行数据定义(定义要取得数据)数据文件数据文件外部文件外部文件运行数据定义 运行数据定义组图 3-9 SASDW的体系结构四、SAS的数据仓库产品SASWA (SAS/Warehouse Administrator) 功能:、 定义DW和主题:所定义的DW,可以建立在SAS数据库中,可建立在一

45、般的DBMS中,还可以建立在SAS的多维数据库产品SASMDDB(MultiDemention Data Base)中。、传送和汇总整理数据通SASWA的Process的Editor进行。 运行数据的映射(Mapping)在此定义从输入数据源中取出哪些数据,这些数据如何转换,然后将他们装载到哪个主题数据表中去。 数据传送将数据从其所在的计算机系统中选出,SASWA对它进行相应处理,然后用Proc UpLoad或Proc DownLoad在把它送到数据仓库所在的计算机系统中。如图3-9所示: 记录选取器按照某些选取规则选出数据子集,形成DW的其他元素,如相应的表、数据集市或视图。 用户出口除SA

46、SWA规定的DW操作外,用户可在多个环节上插入认为需要的数据操作。DW主题表开发者自编程序数据映射数据传输运行数据定义运行数据定义运行数据定义数据文件数据文件外部文件图 3-10 数据传送、更新汇总数据更新()原有表中进行更新;()产生一个新的时间区间的数据新版本。SASWA会按预先规定的规则产生一个新的汇总数据。、 建立、管理和取用查看Metadata 在用SASWA建立DW的过程中,将形成一个若干个DW共用的Metadata:() DW的各个元素所存放的地方;() 在每台计算机系统中都有哪些DW的什么内容;() 如何从运行系统的数据源中取出所需的信息;() 其它DW管理源和用户间需要沟通的

47、信息。 、 设置数据集市二、ORACLE数据仓库解决方案 Oracle公司在世纪年代开始提供DW产品,2001年,Oracle推出了Oracle9i,在9i中DW的创建和管理功能是其中的重要组成。、 OracleDW开发工具Oracle 的DW开发工具分类:技术基础工具,分析应用工具,DW创建工具,DW维护工具。()技术基础工具:Oracle Warehouse Builder为企业DW解决方案的设计、实施和管理,提供了一个完善的集成的框架;IIOracle9i数据库提供较好的数据存储性能,能较好地完成DW的创建工作;IIIOracle9i数据集市套件提供构建数据集市所需的一些软件,例如:集中

48、设计工具,提取数据的图形查询分析工具等;IVCommon Warehouse Metadata(CWM)主要用于构建、维护、管理和使用数据仓库,包括技术和商业元数据,对数据进行管理和分析的工具,以及元数据信息交换。()分析应用工具:面向高层的分析工具Oracle Front Office主要管理客户关系的全面产品,从市场营销到销售服务;Oracle Sales Analyzer分析营销数据。 这两个工具的结合,可提供有关销售的完整情况。从销售效果到销售环境以至定义新的产品和市场类别。II面向底层的分析应用Analyzer Activa成本计算和管理软件包,具有实现动态成本计算与管理的能力。Or

49、acle Financial Analyzer包含财务分析、规划、预算和报告功能,能够满足用户的低层要求。Financial Analyzer可直接链接数据源(例如账务系统),自动创建OLAP分析系统以确保DW应用中的数据一致性。III用于平衡高层和底层发展的分析应用Balanced Scorecard该工具为财务、客户、内部业务和学习发展四个领域进行信息分析提供了框架,通过这些领域,管理人员就可确定那项工作是公司战略获得成功的关键。IV面向Oracle应用客户的分析应用工具OBISOracle Business Information System提供一种性能框架,能使用互设定希望跟踪的主要

50、性能指标,并且围绕这些性能指标定义误差级别,OBIS主要有事实管理、目标管理和异常管理组成。()Oracle数据仓库创建工具Oracle DataBase Configuration AssistantOracle数据构造助手(创建DW的工具)。 Oracle Enterprise Manager Oracle企业管理器(创建表空间和事实表、维表)。()Oracle DW维护工具Oracle DW维护工具主要是指对DW进行数据装载,清理等操作的工具。I 数据的导入、导出、装载用企业管理器完成;II 环境下Oracle数据集市工具集;III 代码生成工具;IV 透明网关技术。三SQL Server 的数据仓库设计与应用 1. 开发工具DW工具名称作用RDBMSDW的创建和维护数据转换工具DW的数据加载数据复制工具分布式DW的数据发布加载OLE DB应用系统与数据元的接口Analysis Services数据挖掘与分析English QueryDW的查询语言Meta Data ServicesDW的元数据浏览PivotTable客户端多维数据的定制与操作 2 开发步骤() 创建数据准备区 (7)

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!