数据仓库解决方案概述PPT课件

上传人:英*** 文档编号:94699324 上传时间:2022-05-23 格式:PPTX 页数:50 大小:691.65KB
收藏 版权申诉 举报 下载
数据仓库解决方案概述PPT课件_第1页
第1页 / 共50页
数据仓库解决方案概述PPT课件_第2页
第2页 / 共50页
数据仓库解决方案概述PPT课件_第3页
第3页 / 共50页
资源描述:

《数据仓库解决方案概述PPT课件》由会员分享,可在线阅读,更多相关《数据仓库解决方案概述PPT课件(50页珍藏版)》请在装配图网上搜索。

1、“数据仓库是在企业管理和决策中面向主题的,集成的, 与时间相关的和不可修改的数据集合”Bill Inmon数据仓库定义第1页/共50页OLTP系统财务系统业务系统计费系统5-10 年过去详细数据当前详细数据轻度汇总数据高度汇总数据数据集市用户分析网络资源分析数据仓库/决策分析系统网管系统数据仓库是完全不同的数据库系统第2页/共50页 事务处理性能是第一位的 支持日常的业务 事务驱动 数据是当前的并在不断变化 存储详细数据 (每一个事件或事务) 面向应用 针对快速预定义的事务优化设计 可预见的使用模式 支持办事人员或行政人员第3页/共50页 支持长远的业务战略决策 分析驱动 数据是历史的 数据是

2、静态的,除数据刷新外 数据反映某个时间点或一段时间 数据是汇总的 面向主题 优化是针对查询而不是更新 支持管理人员和执行主管人员第4页/共50页DW/BI 在电信行业的应用 - How ? 立足于现有的OLTP系统 当前数据和历史数据 集中整合之后,构建一个庞大的数据仓库 面向业务分析和决策层 运用多维分析方法,充分挖掘数据中的信息 应用DW/BI的三步曲数据抽取数据管理数据分析第5页/共50页D A T ADATADATADATADATADATADATADATADATADATADATADATADATADATAINFORMATION 信 息u数据仓库(Data Warehouse)是一种专为联

3、机分析应用和决策支持系统提供数据源的结构化的数据环境u数据仓库要解决的问题是从数据库中获取信息的问题。 信 息INFORMATION DW/BI 在电信行业的应用 - 小结什么是数据仓库(Data Warehouse) ?第6页/共50页业务系统集成的信息管理设计和元数据维护数据仓库的实际构造示意图第7页/共50页议程数据仓库解决方案概述Sybase数据仓库技术解决方案数据仓库设计工具抽取、转换、清洗和装载工具数据存储、管理服务器数据分析和展现工具数据字典(元数据)的管理工具第8页/共50页Sybase数据仓库相关产品的技术构成RelationalPackageLegacyExternalso

4、urceDataCleanToolSource DataDataStagingWareHouseAdmin. ToolsEnterprise DataWarehouse Data Extraction,Transformationand loadDatamartDatamartEnterprise/Central DataWarehouseRDBMSROLAPRDBMSRDBMS, Star SchemaArchitectedDatamartsCentralMetadata Data Modeling ToolEnd-UserToolEnd-UserToolMDBEnd-UserToolEnd

5、-UserToolLocal MetadataLocal Metadata第9页/共50页Sybase数据仓库相关产品介绍第10页/共50页集成的主要产品lIntegratelEnterprise ConnectlReplication ServerlPowerMartlDesignlWarehouse ArchitectlManagelSybase ASIQlVisualizelBriolCognoslAdministerlWarehouse Control Center第11页/共50页议程数据仓库解决方案概述Sybase数据仓库技术解决方案数据仓库设计工具抽取、转换、清洗和装载工具数据存

6、储、管理服务器数据分析和展现工具数据字典(元数据)的管理工具第12页/共50页设计: 成功的关键 数据库的设计对数据仓库系统的整体性能、装载和 建立索引的时间以及数据量的增长等的影响超过 任何其它方面。第13页/共50页数据仓库设计工具WarehouseArchitect为数据仓库的设计提供三大功能:多维建模度量、维、属性事实表,维表维层次表,事实层次表设计向导聚合(Aggregation Wizard)分区(Partitioning Wizard)逆向工程数据源优化代码生成目标数据仓库引擎(IQ,RDBMS)OLAP分析环境第14页/共50页Time identifier = Time id

7、entifierProduct identifier = Product identifierCustomer identifier = Customer identifierStore identifier = Store identifierCustomerCustomer identifierdoubleCustomer namechar(30)Sales FactProduct identifierdoubleTime identifierdoubleCustomer identifierdoubleStore identifierdoubleSales totalrealProfit

8、srealStoreStore identifierdoubleStore namechar(50)TimeTime identifierdoubleDatetimestampMonthchar(50)QuarterdoubleYeardoubleProductProduct identifierdoubleProduct descriptionchar(80)设计:WarehouseArchitect第15页/共50页议程数据仓库解决方案概述Sybase数据仓库技术解决方案数据仓库设计工具抽取、转换、清洗和装载工具数据存储、管理服务器数据分析和展现工具数据字典(元数据)的管理工具第16页/共

9、50页数据抽取、转换、清洗、集成挑战多个、多种异构数据源硬件,OS,RDBMS,文件数据不规范,需要做大量的清洗和整合转换规则复杂,繁多繁琐的日常性工作,占80%工作量数据质量保证数据增量抽取抽取工作过程化,自动化第17页/共50页数据抽取、转换、清洗、集成成功的关键支持多个、多种异构数据源轻松方便地设计数据的清洗,转换和整合规则日常事务性工作自动化完成有完善的数据质量保证体系有完备的数据增量抽取直观,面向过程化设计;自动化的执行开放性,可扩展性,易于实施和维护第18页/共50页数据抽取、转换、清洗、集成解决的方案手工编程实现使用工具设计和实施PowerMart/PowerCenter开发环境

10、,一系列工具用于设计、执行和维护数据的抽取、转换和装载流程抽取转换引擎(服务器),自动执行第19页/共50页集成: PowerMartSourceDatabasesTargetDatabaseDesignerServer ManagerRepository ManagerWarehouseDesignerMappingDesignerTransformationDeveloperSourceAnalyzerRepositoryServer EngineSybaseInformixOracleMicrosoftIBM/UDBODBCDB2SAPPeopleSoftVSAMFlat FilesWe

11、b LogsXMLIBM MQ GatewaysSybaseInformixOracleMicrosoftODBCIBM/UDBSAP BWPeopleSoft EPMFlat FilesGateways第20页/共50页议程数据仓库解决方案概述Sybase数据仓库技术解决方案数据仓库设计工具抽取、转换、清洗和装载工具数据存储、管理服务器数据分析和展现工具数据字典(元数据)的管理工具第21页/共50页数据存储、管理 挑战 数据规模 查询性能 装载速度 易于管理 存取访问成功的关键快速,高效数据存储技术出色的查询性能 - 特殊的索引技术,并行查询可伸缩性 - GB 到 TB 级易于管理 - 方便

12、,灵活,GUI存取访问 - 数据随时可用第22页/共50页数据管理解决的方案通用的关系数据库系统专门的数据仓库服务器Sybase IQ专门为数据仓库/数据集市设计的关系型数据库专门针对OLAP/DSS而优化的索引和查询处理技术第23页/共50页Adaptive Server IQ数据存储: Adaptive Server IQ 无处不索引(Index EVERYWHERE) 数据压缩(通常达到原始数据的 70 - 75%) 垂直存储技术(Vertical Partitioning) 专利的Bit Wise索引技术跨越Bitmap的限制 多种索引类型:FP,LF,HNG,HG 低级数的限制从10

13、0扩充到1000 预连接的索引提供额外的显著提高性能手段(Join Index) 支持任意设计模式 星型、雪花、雪暴、星座模式 普通关系模式 支持任意加载方式 文件、内部数据、外部数据库直接加载 开放的接口第24页/共50页DateStoreStateClassSales3/1/9632NYA63/1/9636MAA93/1/9638NYB53/1/9641CTA113/1/9643NYA93/1/9646RIB33/1/9647CTB73/1/9649NYA12计算“NY”州A类商店的平均销售额当表的记录数从几万条变为千万和上亿条时,传统RDBMS技术面对的问题:u表扫描的性能极端低下u冗余

14、设计代价高昂、查询读取的无效字段过多u低级数类型数据上索引的失效u普通索引加载和空间代价,造成不能任意建造u即席查询的SQL顺序对性能有显著影响u数值型比较和运算,无恰当手段加速处理传统RDBMS不适合数据仓库第25页/共50页IQ的特殊存储方式-垂直存储(按列存储)Sybase IQ: 数据是按列存储的,而不是按行存储DateStoreStateClassSales3/1/9632NYA63/1/9636MAA93/1/9638NYB53/1/9641CTA113/1/9643NYA93/1/9646RIB33/1/9647CTB73/1/9649NYA12 RDBMS data store

15、d by ROWSDateStoreStateClassSales3/1/9632NYA63/1/9636MAA93/1/9638NYB53/1/9641CTA113/1/9643NYA93/1/9646RIB33/1/9647CTB73/1/9649NYA12好处: l 只存取查询所需的数据l 数据类型是一致的,因而可以很容易被压缩l 数据库易于修改和管理第26页/共50页Sybase IQ: 只读完成查询所 涉及到的列DateStoreStateClassSales3/1/9632NYA63/1/9636MAA93/1/9638NYB53/1/9641CTA113/1/9643NYA93/

16、1/9646RIB33/1/9647CTB73/1/9649NYA12计算在纽约的“A”类商店的平均销售额好处: 无须使用其他的技术,Sybase IQ 就可以减少I/O 超过 90%IQ的特殊存储方式-垂直存储(按列存储)第27页/共50页“How many MALES are NOT INSURED in CALIFORNIA?GenderMMFMM-800 Bytes/Row10MROWSStateNYCACTMACA-InsuredYYNYNMYCAMNCAFYNYMNCA1243Gender Insured State+11011101010110MBits10M Bits x 3

17、col / 816K Page = 235 I/Os800 Bytes x 10M 16K Page= 500,000 I/Osn基本上只能使用表扫描n查询过程读取了太多的无效数据Example: I/O 的明显减少第28页/共50页IQ的索引特点索引即是数据没有索引和数据的分别任何一列可以建立多个索引系统保证至少会存在一个索引(FP)索引的选择和设计主要基于:数据的级数(离散值的个数)在查询中的使用方式和SQL语句的顺序无关第29页/共50页索引的种类Fast Projection(FP)数据压缩存储根据数据的特点会自动使用三种方式中的一种Low Fast (LF)Bit map 索引Hig

18、h Non Group (HNG)Bit-wise 索引High Group (HG)G-Array (包括一个改进的B-tree)第30页/共50页FP Index normal FP 级数(取值个数) 65536 数据被压缩存储ColorRedBlueGreenRed第31页/共50页FP Index - FFP 级数 256 内建一个1-byte的参照表Data ValuesRedBlueGreenRedColorRedBlueGreen12311123332Lookup TableData第32页/共50页LF Index 传统的 Bit Map 索引 级数小于1000 可以唯一 使用

19、的可能性 Joins Group by MIN, MAX, SUM, AVG functions Where clause predicates Equality / Inequality, Ranges, IN lists第33页/共50页Bitmap Index for STATErow-idAKALARCACODCDEFL100010000200000001301000000410000000501000000.冗余设计时数据量比想象中要小得多每一个取值都有一个相应的位可以适应新的取值出现和行的增加查询:select count(*) from customers where state

20、 =ALLF Index第34页/共50页HNG Index Bit-Wise Index 数据按照二进制存储 垂直分布和处理 Sybase的专利技术 cannot be used with certain data types 使用最佳范围 range searches for high cardinality columns 运算 (sum and average functions)第35页/共50页适合大量二进制的存储数据垂直分片 即每一个位都可以在内部被独立操作由于肯定存在大量的位同时为1或0,因此IQ在内部处理时会自动做数据压缩HNG - High Card Bit-Wise In

21、dexSales6951193712Sales in binary form8 bit4 bit2 bit1 bit01101001010110111001001101111100Sales in binary form8 bit4 bit2 bit1 bit01101001010110111001001101111100第36页/共50页HG Index 在Bit-Wise的基础上增加一个B-Tree,并保证树在加载时不会重建 最佳使用场合: Joins Select Distinct, Count Distinct Group ByDateZipStateClassSales3/16NYA

22、64/19MAA95/15NYB56/111CTA117/16NYB99/23RIB38/37CTA72/26NYA121 104 64 5 61,5,8,.10001001第37页/共50页突破性的速度 闪电般的快速查询 快速装载无限的灵活性 任何查询 任何模式非常经济 压缩的数据存储 支持多用户查询Sybase IQAdaptive Server IQ 12:专门设计的数据仓库服务器第38页/共50页IQ12的技术参数 Column limit - now 16,000 per table (up from 255 - Great for SAS & SPSS customers) Row

23、 limit - now 281,474,976,710,700 (thats 281 Trillion Rows and change) Device size - up to 128GB (depending on OS) Device limit - now 65,524 (up from 2,000) Database Size limit - 8.4 Petabytes第39页/共50页Sybase IQ 真正的数据仓库AndyneBrioBusinessObjectsGentiaInformationAdvantageInformationDiscoveryInfoSpaceLin

24、guisticTechnologyTeleranTechnologySeagateSoftwareMathsoftCognosAdaptiveServerIQ第40页/共50页议程数据仓库解决方案概述Sybase数据仓库技术解决方案数据仓库设计工具抽取、转换、清洗和装载工具数据存储、管理服务器数据分析和展现工具数据字典(元数据)的管理工具第41页/共50页Brio.Enterprise 6.0 产品家族第42页/共50页Brio Enterprise 功能服务功能服务BrioQuery查询OLAP 查询在线分析 (OLAP)报表EIS/脚本制图审核两层安全防护Broadcast Server信

25、息发布作业调度批处理查询/报表事件驱动处理 报表广播OnDemand Server零管理客户端Web查询适应型报表多层安全防护集群服务器支持SSL (安全套接层加密)OnDemand ServerWeb ServerBrioQueryIQ数据仓库BroadcastServerEmail ServerFile Server第43页/共50页*.iqd任何数据源(关系型、平面型,数据仓库) 自动生成PowerCube 用户定义的业务规则和维度 10:1的数据压缩图形化的浏览多维数据 完全交互式的报表探察PowerPlay: OLAP 环境第44页/共50页Cognos BI 产品结构Data Wa

26、rehousePC DatabaseOracle,Sybase,Informix,SQL Server,ODBC GatewayImpromptu.DBF.DB.DBF, .DB, .XLS,.WKS, .CSVPortfolioTransformerAuthenticator.MDCPowerCubes.PBBPowerPlay.PYH .MDL.IQD.PPR.IMR第45页/共50页议程数据仓库解决方案概述Sybase数据仓库技术解决方案数据仓库设计工具抽取、转换、清洗和装载工具数据存储、管理服务器数据分析和展现工具数据字典(元数据)的管理工具第46页/共50页元数据管理:什么是元数据

27、提供数据对象的准确、全面、一致的定义: 什么是 “customer”的定义,其内容是什么? 提供物理数据到企业模型的映射关系,如: “customer number” 的正确格式是什么 “product status”有哪些取值? 不同系统中相似数据的合并使用规则是什么? 提供数据源和抽取信息 提供数据项的定义和相关描述 数据的使用规则第47页/共50页Operational/ Legacy DataPhysical Schema ImportTransformation ImportLogical Tool ImportMeta Data Validation, Synchronizatio

28、n, & Promotion元数据管理:Control Center第48页/共50页Sybase数据仓库相关产品的技术构成RelationalPackageLegacyExternalsourceDataCleanToolSource DataDataStagingWareHouseAdmin. ToolsEnterprise DataWarehouse Data Extraction,Transformationand loadDatamartDatamartEnterprise/Central DataWarehouseRDBMSROLAPRDBMSRDBMS, Star SchemaArchitectedDatamartsCentralMetadata Data Modeling ToolEnd-UserToolEnd-UserToolMDBEnd-UserToolEnd-UserToolLocal MetadataLocal MetadataPowerMartSybase IQSybase IQCognosPowerMartWarehouseArchitectWCCBrio/BOSybase ASE第49页/共50页感谢您的观看!第50页/共50页

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!