招商银行数据仓库方案建议书

上传人:l**** 文档编号:74755614 上传时间:2022-04-14 格式:DOC 页数:60 大小:185KB
收藏 版权申诉 举报 下载
招商银行数据仓库方案建议书_第1页
第1页 / 共60页
招商银行数据仓库方案建议书_第2页
第2页 / 共60页
招商银行数据仓库方案建议书_第3页
第3页 / 共60页
资源描述:

《招商银行数据仓库方案建议书》由会员分享,可在线阅读,更多相关《招商银行数据仓库方案建议书(60页珍藏版)》请在装配图网上搜索。

1、 招商银行数据仓库方案建议书I目录第一章前言第二章建议方案简介第三章硬件产品介绍第四章软件产品介绍第五章项目计划附录一成功案例附录二 IBM可以提供的服务附录三项目进度计划安排参考附录四产品报价第一章前言作为一个发展中的银行,总部位于我国南方著名经济特区市的招商银行的成长令人瞩目。为了在五年成为全国著名的银行,进入世界大银行的排行榜,招商银行的决策者们制订了一整套行之有效的计划,而作为现代化管理的一部分,与国际上先进的模式接轨,计算机管理自然成为相当重要的一部分。招商银行与世界信息产业的领导者,美国国际商业机器公司,简称 IBM 合作,将其业务系统成功运行在AS/400 平台之上,成功地迈出了

2、计算机管理的第一步。但是他们并不满足于目前的状况,发扬一向紧跟新科技的传统,决定对目前的业务数据作进一步的处理,将静态的数据转化为决策支持的依据。所以,准备采用目前信息产业界极为先进的数据仓库技术,完成招商银行的决策支持系统,以进一步提高公司的实力和竞争力。而世界上最大的软件与咨询服务公司 IBM,将以其在该行业雄厚的实力和数十年丰富的经验,为招商银行提供一套完整的解决方案,使招商银行的管理能力再上一个台阶。本方案以先进性和可扩展性为原则,使招商银行的数据仓库系统既可以保证在几年技术和设备不落后,使之站在世界计算机发展潮流之上,又可以根据业务的高速发展,很方便地升级,以达到业务发展需求的性能。

3、先进性方面,IBM 提供的硬件平台是具有最强劲处理能力的RS6000 SP 系列并行机,它综合业界的最高端技术,具备无与伦比的处理能力和可扩展性、可靠性。例如战胜世界冠军、国际象棋特级大师卡斯帕罗夫的“深蓝”就是这种机型,其每秒数亿步的处理速度至今仍被人们称道;软件平台是IBM 提供最新推出的、业界好评如潮的通用数据库产品(Universal Database),这是 IBM 的又一大师级力作;还有荣获本年度世界数据仓库产品大奖的数据采掘工具:Intelligent Miner;在应用上,IBM有成熟的整套数据仓库解决方案,和其他仅仅能提供某些方面产品的厂商有着本质的区别。可扩展性方面,因为数

4、据量越来越大,用户越来越多,为保证合理的响应速度,对机器的性能提高就会有一个几乎线性增长的要求。硬件和软件的可扩展性就成为一个重要的考虑因素。IBM 的 RS6000 SP 主机正是具备这种特性,从而成为硬件平台的首选;通用数据库在小到手提机,大到并行主机的任何平台上,都能充分发挥硬件的性能。这样就确保了整个数据仓库系统的正常运作。也可以保证用户在今后升级时,既可以保护现有投资,也使应用系统受到的影响降到最小,做到无缝升级。背景中国的银行业务正面临深刻的改革,各种新生事物不断涌现,如新的业务,由于分工模糊而出现的很多非银行业的竞争者,业务全球化的趋势,由新旧竞争者造成的越来越大的压力,快速发展

5、的信息技术,客户的需求和总体人口组成也在不断变化。全球围的金融服务企业间的关系变得更加紧密,促使决策者重新研究金融市场,资源分配,组织结构和业务流程,从而采取更有创意的企业行为和策略,如企业兼并,市场定位,产品和服务推出新,保持营销渠道畅通。在银行业,越来越多的企业正在采用数仓库工具来创造新的商业机会:深入分析客户群的组成、发现特殊需求、设计新的产品、在新业务推出前开展详细的建模和分析。分析客户减少的可能原因,采取预防措施,提高服务质量和整体竞争力。分析重要客户的来源,保证整体效益。预防和制止信用卡诈骗活动。正如 IBM 一向在计算机业的发展中扮演重要角色一样,IBM 早在1988年,就发表了

6、第一篇关于数据仓库的文章,成为这一领域的先驱,从那时起,数据仓库的技术,服务和解决方案就在来断地完善,时至今日,IBM 公司的数据仓库系统已经安装了数百个,在各个行业,各种平台上运行。 1995年,IBM 重新评定了所有数据仓库资源,成立一支核心队伍,专门开发运用于各行业的数据仓库解决方案,围涉与银行与金融业,电讯业,零售业,保险与卫生业等。这个小组的任务是分析各行业的业务需求,选择最好的软件和硬件产品,为客户提供咨询服务。在数据仓库市场上,IBM 始终致力于提供全面解决方案,不但提供技术和咨询服务,还为客户介绍专门的行业经验。我们的数据仓库系统运行在多种平台上,保证一个开放系统供应商的地位,

7、是目前最完整的全方位的集成式数据仓库解决方案。 IDC 最近在加拿大市场上作了一次数据仓库的调查,发现集成度是大家最关心的问题,除了严格遵循开放标准,IBM 还发展了一些有实力的策略联盟伙伴,如 Vality、进展技术公司 ETI、Cognos 以与Information Advantage 等。通过联合开发和集成调试,达到联盟的主要目标:更高级的集成度。 IBM 始终致力于确立在以网络为中心的计算技术方面的领导地位,我们也坚信目前我们站在潮流的尖端,公司部建立起遍布全球100多个国家,700多个城市的全球性的大型数据网络,在专门的互联网部门,在这一领域的技术成果不断推出,都无可置疑地表明 I

8、BM 是当之无愧的领导者。今天 IBM 更是提出了一套完整的解决方案。以下就数据仓库的概念和作用做一些简要的介绍。数据仓库的概念与作用所谓数据仓库,数据仓库之父 W.H.Inmon 曾对数据仓库作了这样的描述:“数据仓库是九十年代信息技术构架的新焦点,它提供集成化的和历史化的数据;它集成种类不同的应用系统;数据仓库从发展和历史的角度来组织和存储数据,以供信息化和分析化处理之用”。这里要强调的是必须将业务系统和数据仓库分开。两者功能不同,要求迥异。虽然业务系统为数据仓库提供数据。但决不能将数据仓库建立在业务系统之上。一来两者所存的数据不同。业务系统是存储实时数据的地方;数据仓库可能更关心的是整个

9、历史数据。两者的数据传递不是简单的复制,而是一个可能是比较复杂的转换和传递过程。二来,这样做对业务系统的影响太大。不仅会对数据的安全性造成一些不可预测的影响,还会影响业务系统的性能。查询请求会使系统不堪重负,响应速度降低,严重时甚至导致系统的崩溃,使业务系统瘫痪。所以必须将两者分开。数据仓库的作用主要在于通过对大量数据的分析,得出需要的统计结果。还可以找出其潜在的关系,从而作出正确的判断。例如,如果银行要了解它的一个客户的情况,以目前的情况来看,需要查询储蓄库,信用卡库,借贷信息等。这些信息存储在不同的业务系统中,不同的主机上,显然要获得完整的客户资料需要作大量的工作,消耗大量的时间。但是,如

10、果这个银行拥有数据仓库系统,要完成这个工作只需要一个最简单的查询命令,可能只需要几秒钟。因为数据仓库中已经有了所有的数据,而且都已经重新组织。特别是如果你要查的是一些历史数据,那么目前的系统就根本无能为力了。所以,建立一个数据仓库对公司的许多正确决策的作出有着举足轻重的影响。它可以以合理的代价取得有效的决策支持;促进企业中业务处理过程的重组;改善并强化对客户的服务;强化企业的资产和负债管理;促进市场分析;帮助实现企业的规模优化。数据仓库的特点由于差不多各个业务系统的各种数据都要放进数据仓库,所以,随着时间的增长数据仓库的数据量是特别大的。例如,某单位一天有10G 数据,例如移动通讯局的计费系统

11、(如果有几本流水帐,可能还会超过这个数字),那么,仅仅过了两年,数据仓库中的数据量就有:10*365*2=7300G,相当于七个多 TB 的数据。那么五年后,十年后呢?简直不能想象。由此可见,数据仓库的特点:数据量大且有几乎线性的增长性。数据仓库对计算机系统的要求根据上述特点,我们认为支持数据仓库的计算机系统首先必须得有一台不仅性能卓著,而且可扩展性也很好的主机。谈到可扩展性,许多人会想到对称多处理器系统 (Symmetrical Multi-Processing) 系统,其实 SMP 系统的 CPU 数增加到一定数目后,对系统性能的提高已十分有限,甚至会起反作用。所以,主机的选用,一定要有非

12、常好的线性增长性。这里,我们建议选用目前已经比较成熟的海量并行处理系统(Massive Parallel Processing),简称为 MPP。另外,数据库的选用也是十分关键的。一是要支持超大的数据量。可能在初始阶段,数据量已经到了 TB 级。二是要有很强的稳定性。数据仓库是为决策支持系统提供准确的数据分析,如果数据库不十分稳定,那么,后果不堪设想。另外,数据库必须有可扩展性,支持多平台,高性能等等。整个网络环境的稳定和高速也应被列入计算机系统设计的考虑畴。数据仓库系统的体系结构一个完整的数据仓库系统,应当由定义部分、数据获取部分、管理部分、数据分发部分、信息目录、数据库管理系统、数据存取与

13、分析等部分组成。1.定义部分数据仓库系统的定义部分完成数据仓库环境的定义和设置。这里包括相应的定义工具供数据仓库的设计者和管理人员使用。他们使用这类工具进行:a.设计和定义数据仓库数据库;b.定义数据仓库的数据源;c.指定一组规则用来约束当数据从外部源点进入数据仓库时的系统行为。定义部分的工作结果是一批元数据,这批数据将存放在信息目录中。2.数据获取部分数据获取部分负责从外部数据源析取数据,并在数据仓库对所析取的数据实施后处理。为了实现数据仓库系统的主要目标-以最终用户最容易理解和使用的方式组织和存储数据,进行后处理是必须的一步。后处理包括对所析取数据的提炼和变换。在定义部分所建立的规则用来约

14、束实施后处理时的系统行为。数据提炼包括以下容:记录或记录栏目的重构,删去不需要的运行信息,字段值的解码和翻译,补充缺漏的值以与检查数据的完整性和相容性。变换的容如上所述。需补充的两点是变换还可以包括对原数据加上时间标记与对导出数据的计算,在完成后处理后,即可将处理的结果加载到相应的数据仓库数据库中,这种加载可通过源数据库的加载工具实现,如果源库是关系数据库,一般可用 SQL 类的工具实现对日常数据清理和归整,来自外部数据源的数据不会原封不动地进入数据仓库,而是必须进行必要的变换以增强其可用性。最常见的数据变换有获取瞬像数据、实施集运算(求和、求平均量等)、分组、填写缺漏值、预报趋势(填入预测量

15、)、数据结构与格式的转换、提取样本值、编码值与可读值间的转化等等。3.管理部分管理部分由一组系统服务工具构成,这类工具与其所提供的服务可为数据仓库系统中其他部分所利用,还可以用于管理数据仓库中的数据集,数据集是对特定的一个或一级用户有用的一组数据,这组数据是从数据获取部分得到的基本数据导出的。管理部分提供的服务包括数据的维护、数据的分发、数据仓库的例行维护,其中,维护服务完成从基本仓库数据导出特定数据集的任务;分发服务负责将集中的仓库数据分发到多个分设的数据仓库数据库服务器和其他供最终用户使用的决策支持系统上面;例行维护服务包括了对数据仓库的常规安全性服务、归档服务、备份、恢复以与对基本仓库数

16、据和数据集的监督服务。在当前,例行维护服务多由基本操作系统和数据库系统软件来完成。4.信息目录数据仓库所管理的数据,不仅有供最终用户(企业管理人员、各级决策者)使用的,还包括供数据仓库系统的开发者和维护者使用的数据。后一类信息是用来描述仓库数据库结构的,称之为元数据。元数据的管理是数据仓库成功应用的关键。数据仓库系统中的信息目录,用来反映本系统中元数据的组织情况。通过信息目录,可帮助用户了解在数据仓库中都存放着什么信息以与如何访问和使用这些信息。一般来说,一个完整的信息目录应当由几部分组成,即技术目录、业务目录和信息导航器。数据仓库的设计者和管理者所使用的数据,其描述信息由技术目录保持和管理。

17、这类信息有关于数据源和目标、数据的提炼规则、数据源与仓库数据库之间的变换规则和映射等的描述信息。技术目录中的信息,是在数据仓库设计者在定义数据源和数据目标时,以与向数据仓库拷贝数据而应用某些规则时产生的。如果外部系统拥有库管理工具、DBMS 系统目录或者 CASE 工具,也可以借用相应的工具从外部系统输入这类信息。为了使数据仓库的设计者和管理者能有重构、调整和优化数据仓库的依据,技术目录还将保存和维护与上述目标相对应的信息,这类信息包括:数据仓库中数据的总量、数据仓库的创建的更新日期、仓库中数据的存取和使用方法等。业务目录包含的信息,是将仓库中的数据以符合最终用户业务习惯的方式表达出来。这类信

18、息包括:同一仓库数据的业务习惯叫法与相应的数据仓库命名与别名对照、仓库数据的来源、导出规则和数据的当前值、与数据拥有者的联络信息、预定义的查询与报告的容细节、授权要求等。这类信息通常是由数据仓库的管理员生成,有的也可以由外部系统(CASE 工具、查询或报告生成工具等)引入到数据仓库中来。业务目录的使用和仓库数据的存取需要简单易用的工具来辅助,信息导航器就是这样的工具,其基本功能是:对业务目录中的信息实施查询和搜索、经查询而生成临时性的或永久性的仓库数据集、向仓库管理员发送新的数据获取请求的通讯、向数据仓库系统的数据分发部件发送分发请求、与系统的数据分发部件和数据存取与分析部件直接交互。5.数据

19、库管理系统数据库管理系统是数据仓库的重要协同支持部分。整个系统都程度不同地依赖数据库软件的支持。其中最基本的支持是对仓库数据检索和维护。能够有效支持数据仓库系统的数据库软件,必须具备两个能力:伸缩能力和运行效率。由于数据仓库所维护的数据量一般都在 TB 之上,所以上述要求的道理是再明白不过的了。在当前,支持数据仓库系统的主要是 RDBMS,所以效率问题更显得重要。为了解决在加载、存取和分析大批量仓库数据时存在的效率问题,IBM 推出了具有广泛并行处理能力的产品,这类产品充分利用大规模并行处理机的能力和开放系统的优势,在伸缩性效率上均有实质性的改观。数据仓库系统需要数据库软件提供的基本支持包括并

20、行查询、并行建索引和并行常规维护(加载、备份和恢复等)。6.数据存取与分析部分存取与分析部分属于仓库系统的前端。这里主要由桌面信息系统的各种工具组成。在 C/S 计算环境下,这部分属于客户端。数据仓库的最终用户在这里提取信息、分析数据集、实施决策,从而可望取得竞争优势。能够进入这一部分的软件工具,主要是查询生成工具、多维分析工具和数据提取工具等。第二章建议方案简介关于招商银行如何实现数据仓库的建议经过前一段时间的调查研究,IBM 特向招商银行提出这份建议,建议书的设计办求体现以下要点:在招商银行现有的技术和经验的基础上开展建设,保护贵行在这些方面的投资,充分考虑到贵行在数据库技术如数据建模和数

21、据库管理等方面的经验,以与正在使用的 IBM 产品,建议的新产品都是易于接受和使用的如 UNIX,DB2 UDB 系列产品等。建议书编写的过程中,咨询了多位有丰富银行业经验的专业顾问,他们对于如何在银行业实现数据仓库有多年的实践经验,可以保证尽量降低方案的风险。为将来的发展打下良好的基础,由于银行金融企业业务的不断发展,以与企业信息系统可采用的新技术不断涌现,所以绝对有必要保证系统有充分的可扩展性,能够采纳各种新技术,如数据采掘工具,互联网和多媒体等。采用开放的,可重用的技术成份,尽量增加系统的灵活性,使投资得到最大程度的保护。通过采用成熟的技术使系统建设的风险降到最低。采用联接集成技术来降低

22、总体运营成本,在本建议书中最明显的例子就是采用数据复制技术,在 AS/400 主机系统和数据仓库间传输数据。总体建议的要点:基于大规模并行技术的开放,可重用,紧密集成的组件,这个方案经过国际围多个专业顾问的审核,如 Richard Finkelstien, IDC 与ColinWhite 等,并得到他们的一致同意。为开发完整的业务系统而选定的一整套来自 IBM 与其伙伴厂商的软件产品。与招商银行在数据分析发现方面建立数据发掘的合作关系,使贵行成为中国银行界的领先企业,通过准确的客户定位,需求顾测等手段获得丰厚的利润。 IBM 将召集来自世界各地的数据仓库和数据发掘方面的专家,他们有多年为银行客

23、户服务的经验,将为贵行提供与业务相关的顾问服务。从技术与财务方面为客户考虑,提供单一而灵活的价格条款,以分期实现的方式,使系统的建设对现行系统的影响减到最少,在整个建设过程与客户共担风险。本建议书的核心技术是 SP 系统,SP 系统的机器已在世界各地的大银行普遍使用,如中国银行和花旗银行。方案的另一个核心技术DB2 UDB 的并行版本(EEE) Enterprise-Extended Edition,它是目前最快的并行数据库,也是目前唯一一个符合标准的全并行数据库。其中还包括了从 AS/400 到 SP 的数据复制工具 DataPropagator。方案中的其他软件产品有:数据集市工具 Vis

24、ualWarehouse,数据采掘工具 Intelligent Miner,以与 DataGuide、ADSM 以与进展技术公司的 ETI 等。在本方案中特定提出一个专门条款:与招商银行的数据采掘合作。数据采掘是目前国际上各大企业普遍采用的一种用于增加和管理效益的手段,它是一种比多维分析工具更先进的数据分析技术。采用了这项技术的用户普遍反映良好,认为能很好地帮助他们降低成本,增加收入,管理风险,招揽客户和扩大市场。 IBM 研究中心根据数据仓库的使用经验,总结出一组需求建模的算法,由各地的专业顾问指导了数百个客户使用这些工具,选出最适合总结业务流程的8个算法,涉与的数据采掘技术包括聚集 (Cl

25、ustering)、分类 (Classificaiton)、关联发现 (association discovery)、序列模式发现(sequential pattern discovery)、相似时间序列发现 (similar time sequence discovery)和预测 (prediction)。数据采掘系统的开发中使用了多种技术和产品,如数据预备工具和可视化技术,为客户实现满意的效果。通过这些系统的建设,也证明了所用的工具和硬件 (RS/6000) 和数据库环境 (DB2 UDB) 有足够的可扩展能力,能处理大型数据文件。与目前市场上其他解决方案相比,IBM 的顾问组提供的服务明

26、显高出一筹,其他公司提供的算法只能适用于单一种特定的情况,IBM 的算法则能在各种企业中使用,所提供的 API 能集成其他表示和决策支持工具,全世界共有9个 IBM 的实验室,50多个专业研究人员从事这方面的工作,他们提出的方案能分析数以百万计的记录,与关系型并行数据库集成,而不再受限于由存容量决定的小型文件。我们向贵行推荐 DB2 并行版本 EEE,是因为我们有足够的数据采掘技术和经验,使之能处理非常大量的数据,发现从来不曾发现过的模式和关联。在方案中,我们将向贵行提供所有合适的工具和资源,并希望组织一些研讨会,共同探计如何更好地选择适用于中国银行业的产品和技术。根据招商银行提供的资料,我们

27、认为整个企业用的数据仓库系统需要一台装有8个高节点的 SP 系统,最初时需要 400GB 存储空间,有必要时,可以在其他省的分行安装数据仓库或数据集市,具体方案视当地的业务量而定,我们设计了相应的两个方案,第一个方案是在总行配备一个8个高节点的 SP 系统,配备 650GB 存储设备;第二个方案是在总行配备一个4个高节点的 SP 系统,配备 325GB 存储设备。然后在各个分行各配备一个2个高节点的 SP 系统,配备 162GB 存储设备。详细方案见附图。IBM 建议使用第一种方案。因为 1. 整个数据仓库系统在一个地方,易于管理和维护; 2. 降低费用,避免重复投资,可共享资源; 3. 从业

28、务上看,数据仓库得出的结论更具有整体性。建议方案企业级的数据仓库与数据集市的比较根据招商银行提出的业务需求,我们建议采用一个分两期的方案来实现数据集市的概念,第一步是建立一个全局的数据仓库,它是建立数据集市的必由之路,数据仓库和数据集市不应该是两个完全分开的系统,因为数据集市虽然向独立的业务领域提供高质量的信息,但数据来源和基础是与数据仓库无法分开的,否则就会出现数据完整性,数据可管理性和元数据可管理性等问题,全局集中的企业数据仓库为所有为特定业务领域服务的数据集市提供一个可靠的基础。数据集市的定义逻辑成份较多,而不注重于物理角度,企业级的数据仓库指把企业业务信息经提炼整理后作长期的保存,而数

29、据集市保存的信息附属于某一特定的业务围,相对比较动态化,因为数据集市相关的业务围会随着时间和经营方针的改变而改变。数据集市需要快速访问原始业务数据,这些数据可能是从几个不同的时期收集来的,事先要经过业务规则的检验和净化处理。这样才能保证不同业务需求的数据集市都能快速访问到所需的数据。正是这个原因,最成功的数据集市应用不是那些以应用为可心的业务系统,而是由全局企业数据仓库中提炼出来的数据集市系统。企业数据仓库可以扮演过滤器的角色,执行业务规则和检验数据。本建议书在实现数据集市方面推荐一种相当灵活的体系结构,数据集市的规模可以小到只有几个用户,大到整个部门,甚至整企业务系统,为了适应这种需求,推荐

30、的方案能从核心的数据仓库中抽取所需的特定数据,跟踪与建立数据集市有关的所有操作,以便作审计控制,并能在较长时间后重组数据。数据集市的具体实现依赖于业务需求和企业数据模型,可以选择的方案有很多,为确保安全性,可管理性,可靠性和可行性,数据集市可以在 SP 平台上和企业的数据仓库共存,这种配置使工作负载可以分布到多个节点上,从而使数据集市的应用获得较好的性能效果,对于远程节点和移动用户而言,数据集市则可以从企业数据仓库平台转移到其他平台上,IBM 的DB2 UDB 数据库和数据复制产品降低了转移过程的复杂性和难度,这些产品可运行在多种平台上,如WindowsNT、 OS/2、AIX、Sun Sol

31、aris、HP-UX 和 SCO UNIX 等,使数据集市可灵活扩展。对于小于 20 GB的数据集市,还可以把数据下载到多维数据和分析包中,如 Arbor 公司的 Essbase 可以从数据仓库中切下部分数据,专用于部门级的数据集市应用,Essbase 有一个多维数据库,最终用户可以从不同的维上分析数据,在较短的响应时间分析数据和汇总信息。本建议书的其余部分将专注于论述如何建立一个集中式的全局数据仓库,评估具体的业务需求时会进一步解释数据集市的实现。方案所用技术概述本方案涉与七项最重要的技术:数据仓库的管理和基础结构,数据获取,数据存储,决策支持工具,数据采掘,企业数据仓库目录,咨询与顾问服务

32、,下面将分别介绍。每项技术都分类列出可能的选择,我们在这个项目中的推荐方案以与原因。我们的解决方案不但覆盖了这七项技术,还有针对性地根据招商银行的业务需求来使用这些技术,保证紧密地集成系统,完成所有业务需要的功能,同时这些技术遵循开放标准,每个组成部分的模块化结构使整个系统具有充分灵活性,可以在必要的时候升级改进。管理与基础结构硬件技术招商银行可以选用的硬件平台有 SMP,SMP 集群和 MPP。根据业务的规模,银行业的动态性,以与为将来的发展建立一个灵活的,可扩展的,有充分发展余地的基础的需求,编写这份建议书的专家一致认为应该选择 MPP 平台,其他评核的顾问如Richard Finkels

33、tein、Colin White 和 IDC 的 ChrisWilliard 等都肯定这一选择,根据 Gartner 集团的统计,九成的 IT 经理为了更快,更灵活,更有效地执行分析工作,都会选择 MPP 平台和并行数据库。 IBM 有两种 UNIX 环境下的 MPP 处理方案:SP 和大型主机上的 MVS 开放版本。我们推荐 SP 系统,因为它稳固的结构,成功的运行记录,较好的性能价格比。 SP 在1994年推出,时至今日,全世界共有2000多个系统在运行,总节点数超过20000个,现在在中国也安装了近100个系统。大型的银行企业,一般会选用一个或多个 SP 平台来执行各种业务,如市场分析,

34、客户管理,利润分析,服务跟踪等。 SP 可以提供几乎不受限制的可扩展能力,本项目建议的配置只与目前最强大的处理能力,最大的存和硬盘容量的不足百分之五,有一些用户甚至在使用超过400个节点的 SP 系统。系统管理长期稳定运行的业务系统有赖于稳定的体系结构,而系统管理是整个数据仓库稳定性量度的重要指标。有超过一半的客户/服务器项目是失败的,其中超过90%的系统是因为没有合适的系统管理结构。SP 平台上有一整套系统管理软件,能管理系统的改变,重新配置,操作执行以与作性能和故障管理。Tivoli 系列系统管理工具进一步完善这组软件的功能,它是一套可靠的跨平台的管理工具,能实现完善的数据仓库管理功能,使

35、整个系统发挥最大的交用。本方案中采用的 Tivoli 产品是ADSM(ADSTAR分布式存储管理器)。数据获取数据获取过程由几步组成,有数据抽取和传送,数据提炼,数据分发和装载。数据获取是一个不间断的过程,要求自动化的处理能力,可靠性和可管理性,所以上节所说的系统管理能力也很重要。数据获取的核心是企业数据仓库目录的分发和管理。该功能由 DB2 UDB EEE 中的产品 Data Propagator 完成。数据存储在 SP 硬件平台上,可选的数据存储产品有 ORACLE、INFORMIX 和 DB2 并行版本,我们推荐 DB2 并行版本 UDB-EEE,该产品在加拿大实验室开发,得到多数顾问的

36、一致推荐,因为 DB2 并行版本是目前市场上唯一完全符合标准的 MPP 数据,通过广泛的安装和使用进一步证明了其能力。在 SP 平台上实现数据仓库选用 DB2 并行版本的占了超过50,远远超过第二位的 ORACLE,因为它目前唯一一个全并行的数据库。最近作了一个关于 VLDB (超大型数据库)的调查中,DB2 成为最受欢迎的产品,在五大数据库中无论是数据库的容量还是用户数都远远领先。例如一家叫 BellSygma 的公司,正在使用 DB2/MVS 作市场分析,随着 UNIX 平台上的数据仓库的不断发展,他们在考虑转型时决定采用 DB2 并行版本,因为他们已经有 DB2 的使用经验,而且 IBM

37、 在 VLDB 上令人信服的技术和经验,可信的运行记录等促使他们作出这种决定。时至今日,他们已经开发出几个 VLDB 的数据仓库应用,都有非常好的可扩展性和性能。一向以来,DB2 因为其多样化的功能而受世界各大型企业的普遍欢迎,美国最大的500家企业中有超过80采用了 DB2,其中前100家全部采用了 DB2。DB2 并行版本象 SP 平台一样,能帮助象招商银行这样的企业去应付各种类型的业务压力,有足够的灵活性去增加,删除,重新开发和管理应用和数据,DB2 有独特的可重用特点,能同时作数据仓库、数据集市和部网应用的数据库服务器,将来还可以把DB2/400 的应用向下优化到 DB2 上。最新的

38、TPCD 测试表明,DB2 的性能是并行数据库中最好的,这次测试模拟了一个实际的数据仓库环境,从 TPC 量度上来看,与招商银行目前的数据仓库规模比较接近,IBM 公司在1996年共投入了1200个人年开发 DB2 产品,今后仍会保持这种力度以保证并行数据库领域的领先地位。决策分析支持工具面向最终用户的工具种类繁多,有 IBM的 Visualizer、Data Inter Pretation;其他公司的如 Cogons、Information Advantage、Business Objects、Brio-Query、CrystalReports、Microstrategy、Prodea、Ar

39、bor 的EssBase 等。汇集总体层次上的数据,从多个角度去分析,发现有价值的信息,但每个工具的功能围都比较单一而固定。经过专家的讨论,我们推荐 Arbor 的 EssBase,作部门级数据集市方案中的多维数据库。我们也希望建立数据采掘的合作关系,以便更好地发挥 IBM 最新的数据采掘和发现技术的作用。IBM 的数据采掘技术数据仓库最重要的作用就是发掘信息,更好地支持业务决策,增加客户忠诚度,提高市场占有率和利润,信息发掘的应用有市场分析,利润评估,成本审核等。现在的技术趋势是以信息发现为驱动,提高上述应用的效率,IBM在这方面的研究和开发工作一直处于领先地位,与几个重大的金融和零售业客户

40、合作,开发出一些有针对性的解决方案。在此基础上汇集成一个完整的数据采掘工具包,Intelligent Miner.已在1996年六月推出,支持RS/6000 和 SP 平台上的 DB2,该项技术在业界堪称一绝。第一版的产品含有八个独立的算法。 META 集团的 AaronZornes 曾高度评价这一技术“IBM 的数据采掘工具包和提供的相关的服务,相信会对大型企业的数据仓库技术带来决定性的影响。”这项技术是一项新技术,对招商银行而言很有好处,采用这项技术可以使贵行与其他银行在技术上拉开差距,这项技术必然会进一步发展,同时也就保证了贵行在数据仓库上的投资能发挥更大的作用。企业数据仓库目录数据仓库

41、的元数据是数据仓库完整性、自动化程度和可用性的基础,元数据定义了数据仓库的处理过程,记录下来并支配整个运行过程,对业务型用户而言,元数据是一种信息目录,从中可以较容易地理解和使用数据仓库中的信息。元数据的来源,信息模型和存储技术有很多种,通常相互之间是冲突的,为了使各种工具可以顺利地互相交换元数据,需要 Metadata Interchange Coalition 的帮助,提供元数据的标准化的交换。IBM,ETI,Infromation Advantage 和 Vality 等公司都支持这种标准,我们与其他数据仓库厂商也正在共同合作,以达成最终的标准。 IBM 的方法与 Coalition 的

42、策略完全一致,技术性的元数据和业务性的元数据的容和使用方式都是比较独立的,针对不同的用户,应该有不同的元数据存储,优化信息结构。IBM 推荐的方案中,技术性的元数据可以用ETI,业务性的元数据用 IBM 的 DataGuide,这些相互独立的产品虽然来自不同的厂商,但组合起来能发挥更大的作用,因为它们是所在领域中最好的产品,否则无论如何都要维护两套元数据目录,还要保证它们之间的同步。 ETI 和 DataGuide 的同步由 ETI 负责,因为 ETI 有一种很特别的功能,能象处理其他数据源一样处理 ETI 的元数据存储,ETI 最大的长处就是有选择的查询、传送数据,不受软件和硬件的影响,能在

43、任何格式的数据库或文件间传送大量的数据,所有操作都是在元数据的控制下进行。ETI 的元数据存储能卸出,然后卸入 DataGuide,或与DataGuide 的数据合并,整个处理过程可在图形界面中完成,最后能生成相关的报告,ETI 还支持版本控制,建立并维护详细的审计记录。 DataGuide 是 IBM 的信息目录工具,集成工作组级和企业级上的最终用户业务元数据,DataGuide 中的元数据按业务性质划分成多个业务组,最终用户很容易浏览,分析时如果要查找某一对象,如报告、电子表格、数据库、程序、ETI 元数据存储或数据采掘工具等,DataGuide 都能把所需的数据连同信息抽调出来,Data

44、Guide 的目录信息存储在 DB2 中,与数据仓库中的业务数据放在一样的地方。咨询与顾问服务概述招商银行已有开发大型项目的技术和经验。根据 IBM 在数百个数据仓库项目中的经验,其中有几个与招商银行的情况相类似,我们有信心帮助贵行利用已有的技术和经验,把系统升级,扩展数据仓库的围和业务应用的广度。 IBM 一向是通过增加商业价值来推动项目的进展,保证用户花在数据仓库上的每一分钱都是物有所值的,所采用的技术都是绝对有必要的,与业务需求相适应的,我们的方案进展是分期进行的,保证整个项目按步就班,达至最后完全成功。 IBM 是世界最大的顾问服务公司,提供全面的顾问服务,在招商银行项目中我们有三个突

45、出的长处: IBM 充分认识到数据仓库的重要性,专门建立一个技术中心,由数百个专业人员组成,设计、实现并管理数据仓库项目中的所有部件。 IBM 已有多年为客户提供数据仓库咨询与顾问服务的历史,附录中列出了 IBM 数据仓库顾问服务的方式。 IBM 有数据采掘方面领先的技术,在过去十年中,超过50个研究人员专注于超大型数据环境中的数据发掘的研究,研究工作在遍布世界各地的9个实验室中进行,前后共研制了42种数据发掘的算法,所有这些成果,再加上我们提供的专业顾问服务,帮助客户设计方案,实现和开展培训,构成了数据采掘的强大力量。第三章硬件产品介绍在仔细研究招商银行总行目前的运行环境,以与总行对数据仓库

46、计划的需求后,IBM 提出 SP 解决方案。IBM 方案结合了在不同平台(IBM RS/6000 与 IBM AS/400) 间数据移动 (data movement),系统连接 (system connectivity) 以与系统可扩展性 (system scalability) 等许多新的技术,这些技术不仅可以满足总行目前的需求,而且提供了满足未来需求的基础。解决方案:因为目前总行每天的日常操作是在 AS/400 上运行,为确保不影响日常的运行,以与满足数据仓库大量运算的需求,IBM 建议使用IBM 最高档的 UNIX 平台 RS/6000 SP,因为 SP 具有(1)开放式系统功能。(2

47、)高可扩展性等优点,足以满足总行目前与未来的需求。IBM 解决方案的主机硬件需求:八个 R50 节点的 RS/6000 SP,每节点配置有8个 CPU,4GB 存,4.5 GB 置硬盘,外置硬盘为 81.1GB。各节点的外置硬盘不互连。八个节点通过SP SWITCH 相联,构成 SP 的 MPP 结构,而每个节点采用8 CPU 的 SMP 结构。物理上八个 R50 节点占用两个 SP 机柜,每个 SP 机柜可放置四个 R50 节点。八个7133-020磁盘组占用两个 R00 机柜,每个 R00 机柜可放置四组 7133硬盘(每组16个)。IBM RS/6000 Scaleable POWER

48、Parallel (SP) 介绍 SP 是 RS/6000 系列产品线中最高档的产品,是 IBM 专门为需要大量高速计算客户所设计的并行机,SP 的结构是高度可伸缩的,最小的 SP 可以只有一个节点,最大的 SP 可以到512个节点。 SP 有三种节点:窄节点、宽节点、高节点,每个 SP 机框 (System Frame) 可以放置16个窄节点,或8个宽节点,或4个高节点。所谓的高节点即是 RS/6000 SMP 机 R50,每个高节点最多可以有8个CPU,4 GB 存与6900GB SSA 硬盘 (或2700GB SCSI硬盘)。节点之间的通讯是通过 IBM 专门为 SP 设计的 SP Sw

49、itch 来实现,节点与外部的通讯则可选择用以太网,FDDI 或 ATM。每个节点都运行 AIX 操作系统。一个低档的 RS/6000 工作站用来作控制台,控制整个 SP 系统的运行。整个 SP 系统可以当作一个系统运行一个大的并行作业,或者可以区分为几个小系统,每个小系统运行自己的作业。SP 是高可伸缩性的并行计算机 SP Shared-nothing 和离散式存的结构,比共享存 SMP 结构与松散耦合式的服务器集群(Loosely-Coupled Cluster) 在可扩展性上有显著的优势,SMP (对称式处理器) 结构,由于共享存与使用单一的操作系统,在可扩展性的限制上是众所周知的。 S

50、MP 结构的第一个瓶颈在于所有的 CPU 均需通过一条系统总线,到存获取数据,CPU 之间往往需要彼此竞争来取得系统总线的使用权。 SMP 结构的第二个瓶颈在于缓存的一致性 (Cache Coherence),也就是说每个 CPU 必须消耗极多的时间来确定每个缓存中的数据是一致的,当某个 CPU 改动它缓存中的数据,它必须把这个更改通知到其他各个 CPU,这对 CPU 与系统总线的开销都是很大的。 SMP 结构的第三个瓶颈在于它使用一个操作系统,这个操作系统由所有的 CPU 所共享,许多核 (kernel) 的结构需要加锁 (Locking )与解锁 (unlocking),来确保数据的一致性

51、,这种 Locking 机制对 SMP结构是一项极大的系统开销。SMP or MPP For Data Warehousing目前有愈来愈多的数据仓库应用使用像 IBM RS/6000 SP 这种多功能并行机 (MPP) 作为硬件平台,这是因为: 1.并行数据库 UDB的 Enterprise-Extended Edition(早期版本为DB2 PE) 已成熟地运行在 SP 上,而并行运算的复杂性均被数据库所涵盖,原有的应用不需要经过任何改变,即可充分利用 SP 的结构达到并行的效果。 2.数据仓库的操作本身就具有高度的并行性,就以数据 Scan 为例:各数据库均有很好的方法把数据放在不同的硬

52、盘上,由不同的节点对之操作达到线性加速的效果。 3.愈来愈多的客户使用 SP 作为数据仓库平台,而且成功的案例越来越多。由于数据仓库计算量与数据量均极为巨大,选择一个具有高度可扩展性的平台是十分重要的,以下是关于何时该选 SMP 平台,何时该选MPP 平台的几点标准: 1. 数据库与最大表 (Table) 的大小。 2. 同时使用的用户数。通常一个数据仓库大多有50至200个人同时使用。 3. 数据库查询的复杂程度。 4. 系统总线的速度,处理器的速度和I/0的速度。 5. 每个查询会访问多少数据,100多行或在百万行。 6. 用户希望的反应时间:几分钟或几小时。 7. 数据库的功能。 8.

53、数据库和终端用户数增长的速度。 IBM 曾就这个问题(何时该选 SMP,何时该选 MPP)对许多专家进行调研,比较中肯的意见是:如果数据量超过100 GB (也有的专家认为200GB) 用户最好认真考虑 MPP 机型,因为它有较好的扩展性,当然最好在实施前即对终端用户的需求有充分的了解,可是在实际的情形中,这种事先有充分准备的例子不多,所以在实施数据仓库后两三年,数据量增长三到四倍的情形非常普遍。很多数据仓库在实施前都有一个实验计划,一个有趣的现象是:实验计划愈成功,客户对数据的需求就愈大。因此,在考虑平台时,一定要注意这个平台的可扩展性,即使要用一台 SMP 的机型,也要考虑它是否有很高的扩

54、展性,是否可以很平滑的升级到 MPP 结构,以避免硬件平台的功能无法满足用户的需求。 SP 比起松散耦合式服务器集群 (Loosely Coupled Cluster) 的方式有很大的优越性,服务器集群的主要缺点在于服务器之间数据传达速度太慢,以与有太多的服务器要管理,IBM 特别为中国设计了 SP Switch,来提供节点间快速的数据传送,而且 IBM 也专门为 SP 设计了一套管理系统来管理SP,不论 SP 有多少个节点,对系统管理人员而言 SP 只是一个系统。SP 的结构可以扩展到几千个节点,目前最大的 SP 有512个节点,美国花旗银行使用116个节点的 SP 运行数据仓库应用。SP

55、SWITCH SP 的技术核心是 SP SWITCH,它提供了极高的速度连接各节点。SP SWITCH 给每两个节点提供四条数据通道,每两个节点之间的带宽高达100 MB /S 双向传送(读与写可以同时进行)。SP 系统管理: IBM 特别为 SP 开发了一个系统管理软件 Parallel System Support Program (PSSP),装在控制工作台上(一台低档的 RS/6000) 来管理整个 SP。PSSP 有下列的功能:硬件的监视与控制配置管理用户管理软件安装与升级用户作业管理SP 的 RAS(Reliability,Availability and Serviceabili

56、ty) IBM 对 SP 的 RAS 非常重视,每个重要配件如电源、风扇均有冗余。SP Switch 每个重要芯片均有备份,来确保 SP Switch 数据传输的正确性以与可靠性,两个节点之间则可利用 IBM 高可靠性软件产品HACMP 提供互为备份。节点部则有 SystemGuard 芯片提供实时监控。(SystemGuard 的详述见后)在 SP 的 R50 高结点采用了 IBM 独特的 SMP 技术的对称多处理系统。在整体 SP 为 MPP 计算结构的同时,在每个 SP 结点部采用 SMP 处理,使每个结点所完成的任务亦可分散到多个处理器运行,这样就充分利用了 MPP 与 SMP 两种技

57、术各自的优越性。以下再对 IBM RS/6000 的 SMP 技术作一介绍:IBM RS/6000 Symmetric Multi-Processing(SMP )对称式多处理器系统在系统设计与制造上,IBM 的 SMP 服务器代表工业界科技的一项主要成就,在中央处理器的结构,设计,科技与包装上有很多领先的突破,与其它竞争对手的 SMP 设计比较,RS/6000 表现出显著的优势,它的可扩展性能力与高可伸缩性给客户提供了充分的投资保护。下表显示 IBM 的 SMP 设计在科技与包装上的优势:传统 SMP 的限制IBM SMP 的创新 Internal contention for Memory

58、 Access and Constrained Data MovementNon - Blocking Data Cross bar and Advanced Memory Implementation Single Points of Failure and Overall System Reliability Independent onboard service processor (IBM system guard)System reliability and availability Suite of improved start-up , runtime and Recovery

59、FacilitiesLimited expansion capability within the same ChassisAdvanced expandability design Limited scalability, constrained performancePower PC road map binary compatibilityNon - Blocking data cross bar and advanced memory implementation: 在传统的 SMP 设计中,各个 CPU 均由同一条系统总线(SYSTEM BUS) 从存获得所需要的数据 (DATA),

60、IBM 在设计 SMP时,使用交换开关的技术 (CROSSBAR SWITCH),各个 CPU 均可由自己的通道到存获取所需的数据,因此多个 CPU 可同时由存获取数据,R50 的系统带宽可高达1.8GB/Sec。这种设计对客户的好处有:1.IBM 把这种比较昂贵,使用在较尖端电脑 (如IBM ES /9000) 的存存取技术,提供给 RS/6000 SMP 机型。2.使系统有较大的处理能力,即可服务较多的用户。3.提供较好的功能 (Performance) 和可扩展性以与客户的投资保护。4. 当客户的应用是 DATA WAREHOUSE 时,复杂的查询需要从存获取大量数据,所以上述的优点更为

61、明显。Independent onboard service processor - IBM System Guard: 在 IBM SMP 机型中,有一个特别的处理器 System Guard。System Guard 随时监视着系统,当系统出现故障,System Guard 能够自动的重新启动 (reboot),重新配置 (reconfiguration ) 以与恢复(recovery) 系统运行。System Guard 给客户提供下列的好处:1.保护客户重要的资产2.提供很好的可靠性和可用性 (Reliability and Availability).3.提供自动的技术支持,较快的反

62、应时间。4. 由于系统故障时间 (DOWN TIME) 减少。使用 IBM SMP 机型的客户可以给客户提供较好的服务。5.IBM 把这种比较昂贵,使用在较为尖端电脑 (如ES/9000) 的技术提供给 RS/6000 SMP 机型用户。6.较好的 Reliability, Availability and Serviceability.Advanced Expandability Design 对客户的好处1. 客户很容易的在现有的系统上增加I /O 储存的能力,而不必另外购置一个新的系统。2. 可热插拔的硬盘提供较高的可用系统可用性 (Availability).3.提供较好的投资保障。P

63、ower PC Roadmap,Binary Compatibility:IBM 有完整的计划来提升 Power PC(SMP 机的处理器)。由601、604 604e 到 630 Power PC 的功能均有大幅度的增长。给客户提供的好处:1.提供客户平滑与不中断的升级。2.提供较佳的投资保护。先进的硬盘技术对利用数据库的应用而言,硬盘的 I/O 速度对应用的功能有巨大的影响,目前各计算机厂商都仍在使用 SCSI - 2 Fast/Wide 的技术,IBM 已于半年前推出较 SCSI - 2 F/W 新一代的产品 SSA (Serial Storage Architecture), SSA 较 SCSI -2 F/W有下列优势:第一、高性能 SSA 适配器的通道速度可达 80MB 每秒双向传输,而 SCSI2 F/W 只能达到 20MB每秒,同时 SSA 配有最快速的硬盘,其带给用户的好处,显示对大量数据的连续输出,SSA 的速度可达到65 MB/S,为 SCSI-2 F/W 的五倍,对一般的事务处理,SSA 可达到 3000 ops (每秒3000次操作) 为 SCSI-2 F/W 的三倍。第二、高可靠性 SSA 为链型结构,如果盘组中

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!