《数据仓库与数据挖掘》(演示稿)第5章

上传人:ca****in 文档编号:123809371 上传时间:2022-07-23 格式:PPTX 页数:47 大小:845.25KB
收藏 版权申诉 举报 下载
《数据仓库与数据挖掘》(演示稿)第5章_第1页
第1页 / 共47页
《数据仓库与数据挖掘》(演示稿)第5章_第2页
第2页 / 共47页
《数据仓库与数据挖掘》(演示稿)第5章_第3页
第3页 / 共47页
资源描述:

《《数据仓库与数据挖掘》(演示稿)第5章》由会员分享,可在线阅读,更多相关《《数据仓库与数据挖掘》(演示稿)第5章(47页珍藏版)》请在装配图网上搜索。

1、第第5 5章章数据仓库系统的实施数据仓库系统的实施 SQL Server 2000SQL Server 2000数据仓库设计与使用数据仓库设计与使用 其他一些公司的数据仓库实施战略其他一些公司的数据仓库实施战略 数据仓库的投资回报分析数据仓库的投资回报分析1SQL Server 2000 SQL Server 2000 的基本服务的基本服务SQL Server 2000 SQL Server 2000 关系数据库引擎:是一个流行的、具有高度可伸缩性和关系数据库引擎:是一个流行的、具有高度可伸缩性和高度可靠性的数据存储引擎。该数据库引擎将数据存储在表中。每个表上高度可靠性的数据存储引擎。该数据库

2、引擎将数据存储在表中。每个表上都列出感兴趣的一些对象,每个表上的列表示由表建模的对象的属性,而都列出感兴趣的一些对象,每个表上的列表示由表建模的对象的属性,而表上的行则代表由表建模的这种对象的事例。应用程序可以将结构化查询表上的行则代表由表建模的这种对象的事例。应用程序可以将结构化查询语言语言 (SQL)SQL)的语句提交给数据库引擎,后者将表格格式的结果集返回给的语句提交给数据库引擎,后者将表格格式的结果集返回给应用程序。应用程序。SQL Server SQL Server 支持的特定支持的特定 SQL SQL 语言称为语言称为 Transact-SQLTransact-SQL。应用应用程序

3、还可以提交程序还可以提交 SQL SQL 语句或语句或 XPathXPath 查询,并请求数据库引擎以查询,并请求数据库引擎以 XMLXML文档文档形式返回结果。形式返回结果。关系数据库引擎具有高度的可伸缩性。关系数据库引擎具有高度的可伸缩性。SQL Server 2000 SQL Server 2000 企业版可以支持企业版可以支持多组数据库服务器相互协作,构成可供上千用户同时访问的多组数据库服务器相互协作,构成可供上千用户同时访问的 TB TB 大小的数大小的数据库。该引擎能够处理世界上任何据库。该引擎能够处理世界上任何 Web Web 站点的流量。该数据库引擎还能站点的流量。该数据库引擎

4、还能自我调节,自动在连接到数据库的用户增多时获取资源,并在用户注销后自我调节,自动在连接到数据库的用户增多时获取资源,并在用户注销后释放资源。释放资源。2SQL Server 2000 SQL Server 2000 的基本服务的基本服务关系数据库引擎具有高可靠性。在数据库引擎的早期版本中要求停止和关系数据库引擎具有高可靠性。在数据库引擎的早期版本中要求停止和启动的管理操作现在可以在引擎运行当中执行,从而增加了可用性。数启动的管理操作现在可以在引擎运行当中执行,从而增加了可用性。数据库引擎与据库引擎与 Windows 2000 Windows 2000 和和 Windows NT Window

5、s NT 故障转移群集的集成可定义故障转移群集的集成可定义虚拟服务器,即使节点中的一台物理服务器出现故障,这些虚拟服务器虚拟服务器,即使节点中的一台物理服务器出现故障,这些虚拟服务器仍然保持运行。在适当的地方,日志传送可以用于维护热备用服务器。仍然保持运行。在适当的地方,日志传送可以用于维护热备用服务器。在故障发生的数分钟内,热备用服务器可以代替生产服务器运行。在故障发生的数分钟内,热备用服务器可以代替生产服务器运行。关系数据库引擎具有高度的安全性。登录身份验证可以与关系数据库引擎具有高度的安全性。登录身份验证可以与 Windows Windows 身份身份验证集成在一起,这样,密码将不会存储

6、在验证集成在一起,这样,密码将不会存储在 SQL Server SQL Server 中,也不会通中,也不会通过网络发送而被网络嗅探器读取。网站可以设置过网络发送而被网络嗅探器读取。网站可以设置 C2 C2 级审核,对所有访级审核,对所有访问数据库的用户进行审核,还可以使用安全套接字层问数据库的用户进行审核,还可以使用安全套接字层 (SSL)SSL)加密的办法,加密的办法,对所有在应用程序和数据库间传送的数据进行加密。对所有在应用程序和数据库间传送的数据进行加密。3SQL Server 2000 SQL Server 2000 的基本服务的基本服务数据库引擎的分布式查询功能。可以访问所有可通过

7、数据库引擎的分布式查询功能。可以访问所有可通过 OLE DB OLE DB 访问的数访问的数据源中的数据。在据源中的数据。在 Transact-SQL Transact-SQL 语句中,可以像引用实际驻留在语句中,可以像引用实际驻留在 SQL SQL Server Server 数据库中的表一样引用远程数据库中的表一样引用远程 OLE DB OLE DB 数据源表。此外,全文检索数据源表。此外,全文检索功能可以对功能可以对 SQL Server SQL Server 数据库或数据库或 Windows Windows 文件中存储的文本数据进行文件中存储的文本数据进行复杂的模式匹配。复杂的模式匹配

8、。关系数据库引擎能够存储由顶层联机事务处理关系数据库引擎能够存储由顶层联机事务处理 (OLTP)OLTP)系统生成的所有系统生成的所有事务的详细记录。该数据库引擎还可以支持最大的联机分析事务的详细记录。该数据库引擎还可以支持最大的联机分析 (OLAP)OLAP)数数据仓库中的事实数据表和维度表的严格处理要求。据仓库中的事实数据表和维度表的严格处理要求。Microsoft SQL Server 2000 Analysis Services Microsoft SQL Server 2000 Analysis Services 提供分析数据仓库和提供分析数据仓库和数据集市中存储的数据的工具。数据集

9、市中存储的数据的工具。Analysis Services Analysis Services 以多维数据集的形以多维数据集的形式显示事实数据表和维度表中的数据,从多维数据集中可以分析趋势和式显示事实数据表和维度表中的数据,从多维数据集中可以分析趋势和其它对于规划今后工作非常重要的信息。在其它对于规划今后工作非常重要的信息。在 Analysis Services Analysis Services 多维数多维数据集上处理据集上处理 OLAP OLAP 查询比试图在查询比试图在 OLTP OLTP 数据库中记录的详细数据上进行数据库中记录的详细数据上进行同样的查询要快得多。同样的查询要快得多。4S

10、QL Server 2000SQL Server 2000的特性的特性Internet Internet 集成:集成:SQL Server 2000 SQL Server 2000 数据库引擎提供完整的数据库引擎提供完整的 XML XML 支持。支持。它还具有构成最大的它还具有构成最大的 Web Web 站点的数据存储组件所需的可伸缩性、可用性站点的数据存储组件所需的可伸缩性、可用性和安全功能。其程序设计模型与和安全功能。其程序设计模型与 Windows DNA Windows DNA 构架集成,用以开发构架集成,用以开发 Web Web 应用程序,并且还支持应用程序,并且还支持 Englis

11、h Query English Query 和和 Microsoft Microsoft 搜索服务等功能,搜索服务等功能,在在 Web Web 应用程序中包含了用户友好的查询和强大的搜索功能。应用程序中包含了用户友好的查询和强大的搜索功能。可伸缩性和可用性:同一个数据库引擎可以在不同的平台上使用。可伸缩性和可用性:同一个数据库引擎可以在不同的平台上使用。SQL SQL Server 2000 Server 2000 企业版支持联合服务器、索引视图和大型内存支持等功能,企业版支持联合服务器、索引视图和大型内存支持等功能,使其得以升级到最大使其得以升级到最大 Web Web 站点所需的性能级别。站

12、点所需的性能级别。企业级数据库功能:企业级数据库功能:SQL Server 2000 SQL Server 2000 关系数据库引擎能充分保护数据关系数据库引擎能充分保护数据完整性,同时将管理上千个并发修改数据库的用户的开销减到最小。其完整性,同时将管理上千个并发修改数据库的用户的开销减到最小。其分布式查询得以引用来自不同数据源的数据,就好象这些数据是分布式查询得以引用来自不同数据源的数据,就好象这些数据是 SQL SQL Server 2000 Server 2000 数据库的一部分,同时分布式事务支持充分保护任何分布数据库的一部分,同时分布式事务支持充分保护任何分布式数据更新的完整性。复制

13、功能可维护多个数据复本,同时确保单独的式数据更新的完整性。复制功能可维护多个数据复本,同时确保单独的数据复本保持同步。数据复本保持同步。5SQL Server 2000SQL Server 2000的特性的特性 易于安装、部署和使用:易于安装、部署和使用:SQL Server 2000 SQL Server 2000 中包括一系列管中包括一系列管理和开发工具,这些工具可改进在多个站点上安装、部署、理和开发工具,这些工具可改进在多个站点上安装、部署、管理和使用管理和使用 SQL Server SQL Server 的过程。的过程。SQL Server 2000 SQL Server 2000 还

14、支持还支持基于标准的、与基于标准的、与 Windows DNA Windows DNA 集成的程序设计模型,使集成的程序设计模型,使 SQL Server SQL Server 数据库和数据仓库的使用成为生成强大的可伸数据库和数据仓库的使用成为生成强大的可伸缩系统的无缝部分。这些功能可以快速交付缩系统的无缝部分。这些功能可以快速交付 SQL Server SQL Server 应应用程序,使客户只需最少的安装和管理开销即可实现这些应用程序,使客户只需最少的安装和管理开销即可实现这些应用程序。用程序。数据仓库:数据仓库:SQL Server 2000 SQL Server 2000 中包括析取和

15、分析汇总数据以中包括析取和分析汇总数据以进行联机分析处理进行联机分析处理 (OLAP)OLAP)的工具。的工具。SQL Server SQL Server 中还包括中还包括一些工具,可用来直观地设计数据库并通过一些工具,可用来直观地设计数据库并通过 English Query English Query 来分析数据。来分析数据。6SQL Server 2000 SQL Server 2000 组件关系图组件关系图 7SQL Server 2000SQL Server 2000数据仓库工具数据仓库工具 工具工具描述描述关系数据库关系数据库数据仓库设计、构造、维护的基础数据仓库设计、构造、维护的基

16、础数据转换服务数据转换服务(DTS)DTS)用于向数据仓库加载数据用于向数据仓库加载数据数据复制数据复制用于分布式数据仓库数据分布和加载用于分布式数据仓库数据分布和加载数据数据OLE DBOLE DB提供应用程序与数据源的接口提供应用程序与数据源的接口APIAPIAnalysis ServicesAnalysis Services用于采集和分析数据仓库中的数据用于采集和分析数据仓库中的数据English QueryEnglish Query提供使用英语查询数据仓库提供使用英语查询数据仓库Meta Data ServicesMeta Data Services浏览数据仓库中的元数据浏览数据仓库中

17、的元数据PivotTablePivotTable服务服务用于制定操作多维数据的客户端接口用于制定操作多维数据的客户端接口8关系型数据库关系型数据库关系型数据库是设计、构造、维护数据仓库的基础技关系型数据库是设计、构造、维护数据仓库的基础技术。术。Microsoft SQL Server 2000Microsoft SQL Server 2000是一个关系型数据库管是一个关系型数据库管理系统,它提供了强大的数据库引擎和许多工具,这理系统,它提供了强大的数据库引擎和许多工具,这些工具不仅可以用于数据库的管理,而且可以用于数些工具不仅可以用于数据库的管理,而且可以用于数据仓库的管理,是数据仓库的技术

18、基础。据仓库的管理,是数据仓库的技术基础。9数据转换服务(数据转换服务(DTSDTS)提供数据转换功能,例如数据引入、引出以及在提供数据转换功能,例如数据引入、引出以及在SQL ServerSQL Server和任何和任何OLE DBOLE DB、ODBCODBC或者文本文件之间转换数据。或者文本文件之间转换数据。利用利用DTSDTS,通过交互式地或按照规划自动地从多处异构数据源输入数据,通过交互式地或按照规划自动地从多处异构数据源输入数据,这样便有可能在这样便有可能在SQL ServerSQL Server上建立数据仓库和数据市场。上建立数据仓库和数据市场。数据的来源特性允许用户输入查询数据

19、的输入时间、地点及其计算方数据的来源特性允许用户输入查询数据的输入时间、地点及其计算方法。数据的引入引出是通过以相同的格式读写数据,在应用程序之间法。数据的引入引出是通过以相同的格式读写数据,在应用程序之间交换数据的过程。一次转换是指在源数据被存储到目的地之前,对其交换数据的过程。一次转换是指在源数据被存储到目的地之前,对其进行的一系列操作。进行的一系列操作。转换特性使得载引入引出中完成复杂数据的验证、清除等功能变得非转换特性使得载引入引出中完成复杂数据的验证、清除等功能变得非常简单。定制转换对象可以被创建并集成进第三方产品中。常简单。定制转换对象可以被创建并集成进第三方产品中。DTSDTS支

20、持多步封装,其中大量文件能被单独处理,最终被集成为一个单支持多步封装,其中大量文件能被单独处理,最终被集成为一个单一的文件。在目的地,该文件的记录能被系统分为多个记录,或相反,一的文件。在目的地,该文件的记录能被系统分为多个记录,或相反,多个记录被集成为一个单一的记录。多个记录被集成为一个单一的记录。DTSDTS也与微软的中心库集成在一起,微软数据中心库存储元数据、数据也与微软的中心库集成在一起,微软数据中心库存储元数据、数据传送包和数据源特性,许多独立的软件经销商支持和共享这个元数据传送包和数据源特性,许多独立的软件经销商支持和共享这个元数据模型。数据转换服务可以在模型。数据转换服务可以在S

21、QL ServerSQL Server间移动数据结构、数据、触发间移动数据结构、数据、触发器、规则、默认、约束和用户定义的数据类型,只有数据结构和数据器、规则、默认、约束和用户定义的数据类型,只有数据结构和数据可以在不同的异构数据源中间传递。可以在不同的异构数据源中间传递。10数据复制数据复制数据复制:是一种实现数据分布的方法,就是指把一个系统中的数据通数据复制:是一种实现数据分布的方法,就是指把一个系统中的数据通过网络分布到另外一个或者多个地理位置不同的系统中,以适应可伸缩过网络分布到另外一个或者多个地理位置不同的系统中,以适应可伸缩组织的需要,减轻主服务器的工作负荷和提高数据的使用效率。组

22、织的需要,减轻主服务器的工作负荷和提高数据的使用效率。数据复制的过程类似于报纸杂志的出版过程,即把信息从信息源迅速传数据复制的过程类似于报纸杂志的出版过程,即把信息从信息源迅速传送到信息接受处。出版服务器包含了将要复制的数据所在的数据库,该送到信息接受处。出版服务器包含了将要复制的数据所在的数据库,该服务器负责制作将要出版的数据,然后将这些出版的数据的所有变化发服务器负责制作将要出版的数据,然后将这些出版的数据的所有变化发送到分布服务器中。订阅服务器是数据复制的目标地,负责接收复制过送到分布服务器中。订阅服务器是数据复制的目标地,负责接收复制过来的数据,并且负责接收从出版服务器上传送过来的全部

23、变化。分布服来的数据,并且负责接收从出版服务器上传送过来的全部变化。分布服务器在出版服务器和订阅服务器之间起中介作用。分布服务器负责从出务器在出版服务器和订阅服务器之间起中介作用。分布服务器负责从出版服务器中接受复制过来的数据,然后在该服务器上的分布数据库中存版服务器中接受复制过来的数据,然后在该服务器上的分布数据库中存储这些变化,最后按照指定的时间间隔推向响应的订阅服务器。储这些变化,最后按照指定的时间间隔推向响应的订阅服务器。在复制过程中,把将要复制的数据称为出版物和文章。文章是复制的基在复制过程中,把将要复制的数据称为出版物和文章。文章是复制的基本单元,是组成出版物的最小单位。文章与数据

24、库中的表对应。文章既本单元,是组成出版物的最小单位。文章与数据库中的表对应。文章既可以对应一个表中的全部数据,也可以指包括表中的一部分数据。出版可以对应一个表中的全部数据,也可以指包括表中的一部分数据。出版物是一个完整的将要复制的内容,它包括一篇或多篇文章,是订阅服务物是一个完整的将要复制的内容,它包括一篇或多篇文章,是订阅服务器订阅的对象。器订阅的对象。11OLE DBOLE DBOLE DB式微软开发的数据访问编程界面。微软已经定位式微软开发的数据访问编程界面。微软已经定位OLE DBOLE DB是是ODBCODBC继继承者,承者,ODBCODBC主要用于处理关系型数据。主要用于处理关系型

25、数据。ODBCODBC是基于是基于SQLSQL的,它可以很好的,它可以很好的用于关系型数据库访问,但是它不能用于非关系型数据源。象的用于关系型数据库访问,但是它不能用于非关系型数据源。象ODBCODBC一一样,样,OLE DBOLE DB也提供对关系型数据的访问,但是也提供对关系型数据的访问,但是OLE DBOLE DB扩展了由扩展了由ODBCODBC提供提供的功能。的功能。OLE DBOLE DB的设计目的是用于所有数据类型的标准界面。除了关系型数据库的设计目的是用于所有数据类型的标准界面。除了关系型数据库的访问,的访问,OLE DBOLE DB提供对各种各样数据源的访问,包括提供对各种各样

26、数据源的访问,包括ExcelExcel电子表格的电子表格的数据,数据,dBasedBase的的ISAMISAM文件、电子邮件、新的文件、电子邮件、新的NTNT的的Active DirectoryActive Directory和和IBMIBM的的DB2DB2数据。使用数据。使用OLE DBOLE DB,用一个界面就可以访问许多不同的数据源。用一个界面就可以访问许多不同的数据源。OLE DBOLE DB是微软的数据访问策略,称为万能数据访问的基础。万能数据访是微软的数据访问策略,称为万能数据访问的基础。万能数据访问指的是一组通用界面,它用来表示来自任何数据源的数据。问指的是一组通用界面,它用来表

27、示来自任何数据源的数据。OLE DBOLE DB是是使万能访问成为现实的技术。万能数据访问和使万能访问成为现实的技术。万能数据访问和OLE DBOLE DB的另一方面是所有的另一方面是所有的对象都应该在数据库中维护,不是企图把商业要求的不同的数据移动的对象都应该在数据库中维护,不是企图把商业要求的不同的数据移动到一个面向对象的数据库中。到一个面向对象的数据库中。OLE DBOLE DB创建和理解企业数据并且在各种数创建和理解企业数据并且在各种数据源中维护。据源中维护。12Analysis Services在数据仓库或者数据市场中的信息可在数据仓库或者数据市场中的信息可OLAPOLAP处理,处理

28、,OLAPOLAP可以有可以有效的以维度和度量组成的立方体方式察看数据。维度是一种效的以维度和度量组成的立方体方式察看数据。维度是一种描述性分类,例如,维度可能是地理位置,也可能是产品类描述性分类,例如,维度可能是地理位置,也可能是产品类型。度量是一种定量数值,例如销售额、库存量或者总费用。型。度量是一种定量数值,例如销售额、库存量或者总费用。来自于原始数据源的合计存储在每一个立方体单元中,这种来自于原始数据源的合计存储在每一个立方体单元中,这种组织数据的方法可以轻易得过滤数据、有效的加快数据的查组织数据的方法可以轻易得过滤数据、有效的加快数据的查询。然而,存在着这种问题:虽然询。然而,存在着

29、这种问题:虽然OLAPOLAP合计是在数据仓库中合计是在数据仓库中可以达到的查询性能的关键因素,但是存储这些合计数据的可以达到的查询性能的关键因素,但是存储这些合计数据的成本是磁盘存储量。事实上,合计数据量可以轻易的超过原成本是磁盘存储量。事实上,合计数据量可以轻易的超过原有的数据量。另外,当维度和合计量提高时,所要求的有的数据量。另外,当维度和合计量提高时,所要求的OLAPOLAP数据存储量也大大的提高。这种对存储量的极大要求一般称数据存储量也大大的提高。这种对存储量的极大要求一般称为数据爆炸。为数据爆炸。OLAPOLAP描述的是一种多维数据服务,这种服务的描述的是一种多维数据服务,这种服务

30、的设计目的是保证分析员、经理和决策者针对特定的问题,通设计目的是保证分析员、经理和决策者针对特定的问题,通过快速、一致、交互式的实时数据访问和分析。过快速、一致、交互式的实时数据访问和分析。13Analysis Services MOLAPMOLAP:多维型多维型OLAPOLAP在一个用于压缩索引的永久数据存储中存在一个用于压缩索引的永久数据存储中存储维度数据和实时数据。合计存储用来加快数据访问。储维度数据和实时数据。合计存储用来加快数据访问。MOLAPMOLAP查询引擎是专有的,而且优化成由查询引擎是专有的,而且优化成由MOLAPMOLAP数据存储使用的存储数据存储使用的存储格式。格式。MO

31、LAPMOLAP提供了比提供了比ROLAPROLAP更快的查询处理速度,并且要求更快的查询处理速度,并且要求更少的存储空间。然而,它不能较好的伸缩,并且要求使用更少的存储空间。然而,它不能较好的伸缩,并且要求使用单独的数据库来存储。单独的数据库来存储。ROLAPROLAP:关系型关系型OLAPOLAP在关系型数据表中存储合计。在关系型数据表中存储合计。ROLAPROLAP针对针对关系型数据库的应用允许其利用已有的数据库资源,并且允关系型数据库的应用允许其利用已有的数据库资源,并且允许许ROLAPROLAP应用程序很好的伸缩。然而,应用程序很好的伸缩。然而,ROLAPROLAP使用表存储合计使用

32、表存储合计则要求比则要求比MOLAPMOLAP更多的磁盘空间,速度相对比较慢。更多的磁盘空间,速度相对比较慢。HOLAPHOLAP:正如其名称所示,混合型正如其名称所示,混合型OLAPOLAP介于介于MOLAPMOLAP和和ROLAPROLAP之间。之间。象象ROLAPROLAP一样,一样,HOLAPHOLAP将主数据存储在源数据库中。象将主数据存储在源数据库中。象MOLAPMOLAP一一样,样,HOLAPHOLAP把合计存储在一个永久性数据存储的地方,它与主把合计存储在一个永久性数据存储的地方,它与主关系数据库分开。这种混合形式使关系数据库分开。这种混合形式使HOLAPHOLAP可以具备可以

33、具备MOLAPMOLAP和和ROLAPROLAP两者的优点两者的优点 。14English Query微软的英语查询环境允许设计者将他们的关系数微软的英语查询环境允许设计者将他们的关系数据库转移到英语查询上来,这给最终用户提供了据库转移到英语查询上来,这给最终用户提供了使用英语提出问题而不是用使用英语提出问题而不是用SQLSQL语言进行查询的语言进行查询的能力。能力。English QueryEnglish Query服务是利用英语查询域编服务是利用英语查询域编辑器创建的,提供了数据库的有关信息,从而使辑器创建的,提供了数据库的有关信息,从而使English QueryEnglish Quer

34、y可用于处理关于特殊表、域和数可用于处理关于特殊表、域和数据的英语问题。据的英语问题。15Meta Data Services 在在Microsoft SQL Server 2000Microsoft SQL Server 2000中,许多工具把中,许多工具把元数据存储在位于元数据存储在位于msdbmsdb系统数据库中的集中式中系统数据库中的集中式中心仓库中。这里提到的元数据是指数据的数据,心仓库中。这里提到的元数据是指数据的数据,Meta Data ServicesMeta Data Services提供浏览这些元数据的功能。提供浏览这些元数据的功能。数据中心库提供了一个通用的位置:可以用来

35、存数据中心库提供了一个通用的位置:可以用来存放对象和对象之间的关系。通过使用一些软件工放对象和对象之间的关系。通过使用一些软件工具,可以描述面向对象的信息:软件工具使用各具,可以描述面向对象的信息:软件工具使用各类对象组成的信息。对象接口界面,界面由属性、类对象组成的信息。对象接口界面,界面由属性、方法和集合组成,集合包含了对其他界面的关系,方法和集合组成,集合包含了对其他界面的关系,以及关联对象。以及关联对象。16PivotTable服务服务 PivotTablePivotTable服务和服务和Analysis ServicesAnalysis Services一起为用户提供客户一起为用户提

36、供客户端对端对OLAPOLAP数据的存取。数据的存取。PivotTablePivotTable服务运行于客户端工作站服务运行于客户端工作站上,它使得可以利用上,它使得可以利用VisualBasicVisualBasic或其他语言来开发用户程或其他语言来开发用户程序,这些程序可以利用序,这些程序可以利用OLE DBOLE DB技术,并使用技术,并使用Analysis Analysis ServicesServices中的中的OLAPOLAP数据或直接取自关系数据库的数据。当它数据或直接取自关系数据库的数据。当它和和OLAPOLAP服务一起使用时,服务一起使用时,PivotTablePivotTa

37、ble服务可以自动将进程或服务可以自动将进程或缓冲内存分配到最合适的位置,并且允许多个客户动态存取缓冲内存分配到最合适的位置,并且允许多个客户动态存取同一个立方体。同一个立方体。PivotTablePivotTable服务业能在本地客户机上存储数服务业能在本地客户机上存储数据,从而使用户可以在不连接据,从而使用户可以在不连接Analysis ServicesAnalysis Services的情况下的情况下对数据进行分析。这种移动式的解决方案允许分析者将数据对数据进行分析。这种移动式的解决方案允许分析者将数据带回家或在途中进行分析。为最终用户提供的带回家或在途中进行分析。为最终用户提供的OLA

38、POLAP数据分析数据分析和描述工具可以利用和描述工具可以利用PivotTablePivotTable服务进行开发。服务进行开发。PivotTablePivotTable服务也提供了开放的界面,独立的软件销售商可以利用它来服务也提供了开放的界面,独立的软件销售商可以利用它来开发第三方应用的产品。开发第三方应用的产品。17数据仓库的实现步骤数据仓库的实现步骤 明确用户需求明确用户需求 设计和建立数据仓库设计和建立数据仓库 使用数据仓库使用数据仓库 维护和优化数据仓库维护和优化数据仓库18数据仓库生命周期管理数据仓库生命周期管理 数据仓库系统框架数据仓库系统框架 影响数据仓库项目成功的因素影响数据

39、仓库项目成功的因素 数据仓库的技术数据仓库的技术 数据仓库项目所需的角色数据仓库项目所需的角色19数据仓库系统框架数据仓库系统框架 基本特点基本特点 拥有为项目作出技术决策的观察点拥有为项目作出技术决策的观察点 拥有确定项目是否能够完成的计量参照点拥有确定项目是否能够完成的计量参照点 拥有以灵活方式运用现有知识的能力拥有以灵活方式运用现有知识的能力 分部分、分阶段依靠多个工作小组协调完成分部分、分阶段依靠多个工作小组协调完成 四个阶段四个阶段 设想阶段设想阶段 规划阶段规划阶段 开发阶段开发阶段 稳定阶段稳定阶段20影响数据仓库项目成功的因素影响数据仓库项目成功的因素 数据仓库创建前的影响因素

40、数据仓库创建前的影响因素 管理层的信任管理层的信任 从管理项目开始:面向主题从管理项目开始:面向主题 交流实现目标交流实现目标 任命一个面向用户的项目经理任命一个面向用户的项目经理 数据仓库创建时的影响因素数据仓库创建时的影响因素 采用成熟的技术采用成熟的技术 注重查询而不是注重事务注重查询而不是注重事务 只加载所需数据只加载所需数据 定义合适的数据源:元数据映射定义合适的数据源:元数据映射 明确定义主题明确定义主题 数据仓库创建后的影响因素数据仓库创建后的影响因素 面向决策的使用者的信任面向决策的使用者的信任21数据仓库的技术数据仓库的技术管理大量的数据管理大量的数据管理多介质管理多介质索引

41、和监视数据索引和监视数据多种技术的接口多种技术的接口对数据存放位置的控制对数据存放位置的控制数据的并行存储和管理数据的并行存储和管理元数据管理技术元数据管理技术语言接口语言接口数据的高效装入数据的高效装入高效索引的利用技术高效索引的利用技术数据压缩技术数据压缩技术复合键码技术复合键码技术变长数据变长数据锁管理切换技术锁管理切换技术快速恢复技术快速恢复技术其他技术:事务集成性、高速缓存、行其他技术:事务集成性、高速缓存、行/页级锁定、引用完整性、页级锁定、引用完整性、数据视图等数据视图等22数据仓库项目所需的角色数据仓库项目所需的角色管理角色管理角色 项目主管项目主管 项目经理项目经理技术角色技

42、术角色 数据提供专家数据提供专家 体系结构设计者体系结构设计者 数据库管理员数据库管理员 数据迁移专家数据迁移专家 数据转换专家数据转换专家 数据集市开发的领导人数据集市开发的领导人 质量保证质量保证/测试专家测试专家维护角色维护角色 内行的用户内行的用户 培训教师培训教师 技术文档编写人员技术文档编写人员 工具专家工具专家 销售商联系人销售商联系人23创建数据仓库向导创建数据仓库向导24创建数据仓库向导创建数据仓库向导25创建数据仓库向导创建数据仓库向导26创建数据仓库向导创建数据仓库向导27完成创建数据仓库完成创建数据仓库28创建事实维度表创建事实维度表 29创建事实维度表创建事实维度表3

43、0属性选项卡属性选项卡31属性选项卡属性选项卡32创建数据库关系图向导创建数据库关系图向导33关系图关系图34多维数据集向导多维数据集向导35多维数据集多维数据集36多维数据集多维数据集37数据仓库软件市场数据仓库软件市场1993199819931998平均年增平均年增23.9%,23.9%,达达2222亿美元。亿美元。数据值入工具:从数据库中提取数据,转换为数据仓库格式并送入数据仓库中。数据值入工具:从数据库中提取数据,转换为数据仓库格式并送入数据仓库中。数据过滤工具:对数据仓库中的数据进行存放和管理。数据过滤工具:对数据仓库中的数据进行存放和管理。数据存取工具:让用户存取数据仓库中的数据。

44、数据存取工具:让用户存取数据仓库中的数据。数据仓库市场划分数据仓库市场划分软件总市场软件总市场6949312416612。3%数据存取数据存取663-125813.7%第三代语言第三代语言/公用程序公用程序3061-601914.5%CASE1751-308512.5%DBMS5801-11680%15.0%其它市场其它市场58163-10212411.9%数据存取数据存取663-125813.7%数据提取数据提取/转换转换31-23249.3%数据管理数据管理59-70864.3%数据仓库数据仓库753-219823.9%数据复制数据复制14-31987.1%注注:*-*%指指1993年年-

45、1998年年 销售额销售额(M$)年递增率年递增率 38(1)动态可伸缩的数据库系统动态可伸缩的数据库系统(DSA)DSA)存放大量数据存放大量数据:几个几个GBGB到几个到几个TBTBPDQ(PDQ(并行数据查询并行数据查询)技术技术:实现数据查询、索引扫描。实现数据查询、索引扫描。索引建立、数据修改、备份索引建立、数据修改、备份 恢复等数据库操作的并发处理恢复等数据库操作的并发处理支持所有开放系统硬件环境支持所有开放系统硬件环境:单单CPUCPUSMP(SMP(对称多处理器对称多处理器)Cluster(Cluster(松耦合群体系统松耦合群体系统)MPP(MPP(大规模并行系统大规模并行系

46、统)批处理批处理操作数据操作数据事务处理事务处理操作数据操作数据外部数据外部数据数据仓库数据仓库管理软件管理软件开放系统开放系统平台平台元数据元数据目标数据库目标数据库数据存取数据存取工具工具INFORMIX-ONLINE 动态服务器动态服务器INFORMIXINFORMIX的的数据仓库战略数据仓库战略39Sybase Warehouse Works 体系结构体系结构(1)C/S 环境下的数据仓库框架环境下的数据仓库框架联机事务处理联机事务处理子系统子系统部门数据部门数据部门数据部门数据局部仓库局部仓库局部仓库局部仓库中央仓库中央仓库个人使用个人使用个人使用个人使用决策支持决策支持数据分布的灵

47、活性要求数据分布的灵活性要求(2)Sybase支持数据分布的方法支持数据分布的方法Enterprise CONNECT 互操作体系结构互操作体系结构:并发方法、异构数据分布、信息打包并发方法、异构数据分布、信息打包Replication Server 的基于事件的事件捕捉功能的基于事件的事件捕捉功能基于时间调度方式的批时间拷贝方案基于时间调度方式的批时间拷贝方案(3)高速的时间访问高速的时间访问Navigation Server(导航服务器导航服务器)SQL Server中增加中增加interaction Query(IQ)Accelerator 进行随机高速查询进行随机高速查询Sybase

48、Omni SQL Server 提供时间访问透明性提供时间访问透明性推荐推荐125种无缝存取数据的工具种无缝存取数据的工具40ORACLEORACLE的数据仓库实施战略的数据仓库实施战略 决策支持应用系统决策支持应用系统Oracle Applications Data WarehouseOracle Applications Data Warehouse 外部数据源析取、转换、装载工具外部数据源析取、转换、装载工具 数据仓库管理工具数据仓库管理工具 数据分析工具数据分析工具 数据集成工具数据集成工具 数据挖掘并将数据切换到用户自定义的视图中数据挖掘并将数据切换到用户自定义的视图中 数据挖掘数据

49、挖掘 数据切换数据切换 多维视图多维视图41ORACLEORACLE的数据仓库实施战略的数据仓库实施战略 针对多维数据的扩展针对多维数据的扩展 Oracle 7Oracle 7扩展扩展Oracle 7 Spatial Data OptionOracle 7 Spatial Data Option 管理多维数据或时空数据管理多维数据或时空数据 多维数据的编码多维数据的编码:HHCODEHHCODE标准标准 多达多达3232维的数据综合维的数据综合 无索引无索引 通过数据分割优化通过数据分割优化VLDBVLDB 多种查询方式多种查询方式:行方式、近似方式、自定义多角度方式行方式、近似方式、自定义多

50、角度方式 数据过滤器数据过滤器 数据转换工具集数据转换工具集 数据管理工具集数据管理工具集42数据仓库投资回报分析数据仓库投资回报分析 DWDW技术投资的收益技术投资的收益 加拿大加拿大IDCIDC公司对公司对6262家公司调查家公司调查 收益巨大收益巨大 DWDW的特点(的特点(Bill Bill InmonInmon):):数据按主题组织,有利于宏观分析、决策分析数据按主题组织,有利于宏观分析、决策分析 数据是集成的,无需再转换数据是集成的,无需再转换 数据是稳定的,便于查询数据是稳定的,便于查询 信息是面向时间的,是一定期限时间的快照信息是面向时间的,是一定期限时间的快照43DWDW投资

51、回报巨大的原因投资回报巨大的原因 DWDW中的协同数据能够使管理者了解完整的商中的协同数据能够使管理者了解完整的商业过程、制定决策业过程、制定决策 维护费用比维护费用比DSSDSS低低 软件、硬件、存储费用低软件、硬件、存储费用低 减少白领工人减少白领工人 为决策者提供崭新视角,发现规律,从正确为决策者提供崭新视角,发现规律,从正确的决策中获取效益的决策中获取效益 同时进行宏观、微观管理,减少手工劳动、同时进行宏观、微观管理,减少手工劳动、避免错误避免错误44DWDW投资回报的定量分析投资回报的定量分析 投资回报的度量标准投资回报的度量标准 投资回报率(投资回报率(ROIROI)回报周期(回报

52、周期(PPPP)净现值(净现值(NPVNPV)内部回报率(内部回报率(IRRIRR)DWDW的的投资回报率(投资回报率(ROIROI)与回报周期(与回报周期(PPPP)收益现值收益现值ROI=ROI=成本现值成本现值 结果:结果:62 62个企业中个企业中 4545个企业个企业ROIROI为为3 318381838,三年平均,三年平均ROIROI为为401401 DWDW平均投资平均投资22002200万美元,平均回报周期为万美元,平均回报周期为2.32.3年年 8 8个为负值个为负值 9 9个为个为18571857160001600045DWDW投资回报的规律投资回报的规律 DWDW维护人员

53、提高效益、规范小型化、即席查维护人员提高效益、规范小型化、即席查(占(占2020)信息收集、传输自动化(占信息收集、传输自动化(占3030)最终用户制定基于分析的决策以最终用户制定基于分析的决策以DWDW为唯一信息源为唯一信息源(占(占5050)高技术制造业、制造业高于其他行业高技术制造业、制造业高于其他行业 200200GBGB以上的数据仓库具有较低的以上的数据仓库具有较低的ROIROI 以业务以业务/工程为主要用户的企业具有较高的工程为主要用户的企业具有较高的ROIROI 欧洲企业平均欧洲企业平均ROIROI为为340340,北美为,北美为44044046数据仓库投资回报的定性分析数据仓库投资回报的定性分析 从总体上管理企业与客户之间的关系从总体上管理企业与客户之间的关系 让客户获得更多的好处让客户获得更多的好处 建立企业内部的合作关系建立企业内部的合作关系 对机遇作出快速反应对机遇作出快速反应 可管理宏观和微观数据可管理宏观和微观数据 改善管理能力改善管理能力47

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!