数据仓库概念的简单理解

上传人:回**** 文档编号:202273270 上传时间:2023-04-21 格式:DOC 页数:8 大小:52KB
收藏 版权申诉 举报 下载
数据仓库概念的简单理解_第1页
第1页 / 共8页
数据仓库概念的简单理解_第2页
第2页 / 共8页
数据仓库概念的简单理解_第3页
第3页 / 共8页
资源描述:

《数据仓库概念的简单理解》由会员分享,可在线阅读,更多相关《数据仓库概念的简单理解(8页珍藏版)》请在装配图网上搜索。

1、数据仓库概念的简朴理解一种典型的公司数据仓库系统一般涉及数据源、数据存储与管理、LP服务器以及前端工具与应用四个部分。如下图所示:数据源:是数据仓库系统的基本,是整个系统的数据源泉。一般涉及公司内部信息和外部信息。内部信息涉及寄存于公司操作型数据库中(一般寄存在RDBMS中)的多种业务数据和办公自动化(OA)系统涉及的各类文档数据。外部信息涉及各类法律法规、市场信息、竞争对手的信息以及各类外部记录数据及各类文档等; 数据的存储与管理:是整个数据仓库系统的核心。在既有各业务系统的基本上,对数据进行抽取、清理,并有效集成,按照主题进行重新组织,最后拟定数据仓库的物理存储构造,同步组织存储数据仓库元

2、数据(具体涉及数据仓库的数据字典、记录系统定义、数据转换规则、数据加载频率以及业务规则等信息)。按照数据的覆盖范畴,数据仓库存储可以分为公司级数据仓库和部门级数据仓库(一般称为“数据集市”,ta Mart)。数据仓库的管理涉及数据的安全、归档、备份、维护、恢复等工作。这些功能与目前的DBMS基本一致。OA服务器:对分析需要的数据按照多维数据模型进行再次重组,以支持顾客多角度、多层次的分析,发现数据趋势。其具体实现可以分为:RLAP、P和HOLAP。RLAP基本数据和聚合数据均寄存在BM之中;MOLAP基本数据和聚合数据均寄存于多维数据库中;而HLAP是OLAP与MOLAP的综合,基本数据寄存于

3、RMS之中,聚合数据寄存于多维数据库中。 前端工具与应用:前端工具重要涉及多种数据分析工具、报表工具、查询工具、数据挖掘工具以及多种基于数据仓库或数据集市开发的应用。其中数据分析工具重要针对OLP服务器,报表工具、数据挖掘工具既针对数据仓库,同步也针对OLA服务器。集线器与车轮状构造的公司级数据仓库 这种构造也称为“Huban ke”,这是由于中央数据库汇集了来自各业务解决系统的数据,同步也负责向各附属数据集市提供信息,看上去像一种Hub (集线器);而业务人员在进行数据分析与信息访问时将根据需要连接到不同的数据集市,这种交叉复杂的连接看上去就像Soke(车轮辐条)同样。 “Hb a Spok

4、e”构造解决了公司内统一数据存储模型的问题,但从实际使用的角度来看仍有比较严重的缺陷:一是业务人员对信息的访问非常不以便,很难进行跨数据集市或跨部门的信息分析;另一种问题是每个数据集市都需要相应的软硬件投入,当数据集市增长时,系统整体投资迅速增长,同步管理的复杂性也随之增长。这些都意味着巨大的整体拥有成本TO(Totl Costo wnersh)。 为什么不直接访问中央数据仓库而非要设计一种数据集市层呢?重要因素在于当中央数据库保存越来越多的数据、并发顾客越来越多时,一般的数据库引擎无法承当这样的负载,只得把它们分解到不同的数据集市。对于“ub adSpoke”构造的数据仓库, Grner G

5、rou也觉得,“数据仓库的 Hub and Ske构造,回避了DBS技术中的弱点,无法提供合适的业务价值来平衡投资成本的明显增长”,“之因此产生这种趋势,是由于对大多数BM产品而言,支持复杂的数据模型和并发查询负载都是极大的挑战”。集中式公司级数据仓库 第二种公司级数据仓库的架构是集中式的,这解决了“ub ad oke”构造中存在的诸多问题,是一种比较抱负的公司级数据仓库系统架构,可觉得公司带来真正的业务价值与回报。但由于把具体数据分析、部分的数据转换与清洗等复杂解决均集中在中央数据仓库,从而给作为数据仓库引擎的RDBS和相应的服务器带来了极大的挑战。选择这种数据仓库基本平台的基本规定是: 1

6、、线性扩展能力。原始数据对任何一种数据仓库来说,都是最重要的负载之一。随着数据量的增长,系统性能会逐渐下降。维持合理的业务查询响应时间,规定数据仓库引擎和相应的数据库服务器具有优良的线性扩展能力。某些系统的扩展能力非常有限,当数据量增长到一定规模时(例如TB级以上),就很难满足平常的业务分析规定了,因而不得不把数据分离到多种小规模的数据集市,形成所谓的“u n Spok”构造。 2、并行解决能力。许多业务查询与分析都是动态的,数据库老式的索引技术对动态分析和模糊查询的协助不大。系统只有具有非常好的并行解决能力,才干满足复杂的、动态的分析需求,并且承当比较复杂的数据转换与清洗工作。3、简朴的系统

7、管理。对于大型的数据仓库应用系统而言,如何能有效而简朴地进行系统管理是非常重要的。特别是当数据量不断扩大时,如果没有一种有效并且简朴的系统管理措施,那么系统的运营费用将会很高。 数据仓库的实行是一种长期的过程,在基本设施建立完毕后,随着应用的逐渐开展和进一步,其投资回报也逐渐增长。在建立数据仓库过程中需要一定的时间来建立数据仓库基本设施,并在建置的过程中逐渐完善数据质量。这个打基本的过程是无法省略的。更为重要的是,在建立数据仓库的过程当中,还可以培养一批既懂数据仓库技术、又精通该领域业务的高档分析人才,这对于更好地发挥数据仓库价值是非常重要的附:联机事务解决OLTP及联机分析解决(OLA)当今

8、的数据解决大体可以提成两大类:联机事务解决OLP(on-lne transactio rocesing)、联机分析解决LA(O-ine AnalytcalPocessin)。OLP是老式的关系型数据库的重要应用,重要是基本的、平常的事务解决,例如银行交易。OAP是数据仓库系统的重要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询成果。下表列出了OLP与OLP之间的比较。TOLP顾客操作人员,低层管理人员决策人员,高档管理人员功能平常操作解决分析决策DB 设计面向应用面向主题数据目前的, 最新的细节的, 二维的分立的历史的,汇集的, 多维的集成的, 统一的存取读写数十条记录读上百万

9、条记录工作单位简朴的事务复杂的查询顾客数上千个上百个D 大小100MBG10B-TBLAP是使分析人员、管理人员或执行人员可以从多角度对信息进行迅速、一致、交互地存取,从而获得对数据的更进一步理解的一类软件技术。OAP的目的是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是维这个概念。“维”是人们观测客观世界的角度,是一种高层次的类型划分。“维”一般涉及着层次关系,这种层次关系有时会相称复杂。通过把一种实体的多项重要的属性定义为多种维(dimesio),使顾客能对不同维上的数据进行比较。因此也可以说是多维数据分析工具的集合。OP的基本多维分析操作有钻取(l p和dridwn

10、)、切片(slce)和切块(dice)、以及旋转(iot)、drl cross、dll though等。钻取是变化维的层次,变换分析的粒度。它涉及向上钻取(olup)和向下钻取(dril don)。roll up是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而drill o则相反,它从汇总数据进一步到细节数据进行观测或增长新维。切片和切块是在一部分维上选定值后,关怀度量数据在剩余维上的分布。如果剩余的维只有两个,则是切片;如果有三个,则是切块。旋转是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。OAP有多种实现措施,根据存储数据的方式不同可以分为ROLAP、A

11、、HLAP。ROL表达基于关系数据库的LP实现(RlationaOAP)。以关系数据库为核心,以关系型构造进行多维数据的表达和存储。OLP将多维数据库的多维构造划分为两类表:一类是事实表,用来存储数据和维核心字;另一类是维表,即对每个维至少使用一种表来寄存维的层次、成员类别等维的描述信息。维表和事实表通过主核心字和外核心字联系在一起,形成了星型模式。对于层次复杂的维,为避免冗余数据占用过大的存储空间,可以使用多种表来描述,这种星型模式的扩展称为雪花模式。OAP表达基于多维数据组织的OLA实现(ulidiension OL)。以多维数据组织方式为核心,也就是说,OAP使用多维数组存储数据。多维数

12、据在存储中将形成立方块(Cbe)的构造,在MLAP中对立方块的旋转、切块、切片是产生多维数据报表的重要技术。HLAP表达基于混合数据组织的AP实现(Hybrid AP)。如低层是关系型的,高层是多维矩阵型的。这种方式具有更好的灵活性。尚有其她的某些实现OLAP的措施,如提供一种专用的SQL rv,对某些存储模式(如星型、雪片型)提供对SQL查询的特殊支持。OLP工具是针对特定问题的联机数据访问与分析。它通过多维的方式对数据进行分析、查询和报表。维是人们观测数据的特定角度。例如,一种公司在考虑产品的销售状况时,一般从时间、地区和产品的不同角度来进一步观测产品的销售状况。这里的时间、地区和产品就是

13、维。而这些维的不同组合和所考察的度量指标构成的多维数组则是OLA分析的基本,可形式化表达为(维1,维,维,度量指标),如(地区、时间、产品、销售额)。多维分析是指对以多维形式组织起来的数据采用切片(lic)、切块(Dc)、钻取(Drdn和Rol-up)、旋转(ivot)等多种分析动作,以求剖析数据,使顾客能从多种角度、多侧面地观测数据库中的数据,从而进一步理解涉及在数据中的信息。根据综合性数据的组织方式的不同,目前常用的LAP重要有基于多维数据库的MLAP及基于关系数据库的RLP两种。OLA是以多维的方式组织和存储数据,RLAP则运用既有的关系数据库技术来模拟多维数据。在数据仓库应用中,LA应

14、用一般是数据仓库应用的前端工具,同步OLP工具还可以同数据挖掘工具、记录分析工具配合使用,增强决策分析功能。附:OLP主流产品Hpron EsbaeOae ExresB DB2 OLAP SveSybasePordion Inormi MetcubyperonEssbas 以服务器为中心的分布式体系构造有超过10个的应用程序有30多种用sbase作为平台的开发商具有几百个计算公式,支持多种计算顾客可以自己构件复杂的查询。迅速的响应时间,支持多顾客同步读写有30多种前端工具可供选择支持多种财务原则能与ERP或其她数据源集成全球顾客超过1500家Orcl ExresOrale W支持GBTB数量级

15、采用类似数组的构造,避免了连接操作,提高分析性能提供一组存储过程语言来支持对数据的抽取顾客可通过We和电子表格使用灵活的数据组织方式,数据可以寄存在Epess Srr内,也可直接在RD上使用有内建的分析函数和4GL顾客自己定制查询全球超过家IBM DB2OLP rver把Hpeion Essbae的OAP引擎和B2的关系数据库集成在一起。与sse PI完全兼容数据用星型模型寄存在关系数据库DB2中Infomix Metacub采用eube技术,通过LE和ODB对外开放,采用中间表技术实现多维分析引擎,提高响应时间和分析能力开放的体系构造可以以便地与其她数据库及前台工具进行集成ybaePoer imesion数据垂直分割(按“列”存储)采用了突破性的数据存取措施-bit-ws索引技术在数据压缩和并行解决方面有多到之处提供有效的预连接(Pro-o)技术

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!