数据仓库系统总体设计研究

上传人:沧****B 文档编号:212288303 上传时间:2023-05-22 格式:DOC 页数:124 大小:1.45MB
收藏 版权申诉 举报 下载
数据仓库系统总体设计研究_第1页
第1页 / 共124页
数据仓库系统总体设计研究_第2页
第2页 / 共124页
数据仓库系统总体设计研究_第3页
第3页 / 共124页
资源描述:

《数据仓库系统总体设计研究》由会员分享,可在线阅读,更多相关《数据仓库系统总体设计研究(124页珍藏版)》请在装配图网上搜索。

1、数据仓库系统总体设计研究1242020年4月19日文档仅供参考文档编号产品版本密级1.0共87页数据仓库系统总体设计文档作者:_ _日期: /12/20项目经理:_ _日期: /12/28部门经理:_ _ 日期: /01/08总 工 办:_ _日期: /01/08目 录1概述71.1背景71.1.1待开发的软件系统名称81.1.2系统的基本概念81.1.3项目组名称81.1.4项目代号81.2术语和缩写词81.3设计目标92系统设计92.1设计原则92.2系统结构112.2.1子系统划分112.3系统数据结构172.3.1逻辑结构122.3.2层次结构132.3.3网络拓扑结构142.3.4网

2、络层次结构162.4行业特殊需求172.5底层数据库(仓库)设计192.5.1设计原则192.5.2数据现状202.5.3数据存储整体规划212.6ETL系统242.6.1需求规定242.6.2运行环境242.6.3设计思想242.6.4结构说明252.6.5处理流程262.7系统管理272.7.1需求规定272.7.2运行环境282.7.3设计思想282.7.4结构说明282.7.5处理流程292.8数据展现302.8.1需求规定302.8.2运行环境322.8.3设计思想322.8.4结构说明322.8.5处理流程342.9界面设计342.9.1需求规定342.9.2主程序界面342.9.

3、3主要页面设计352.10接口设计382.10.1外部接口382.10.2内部接口392.11安全设计392.11.1网络安全392.11.2数据库安全422.12系统可靠性设计432.12.1可靠性432.12.2可维护性432.12.3可扩展性442.12.4健壮性442.12.5性能保证442.12.6出错处理452.12.7备份与恢复452.13运行设计462.14相关工具选择462.14.1数据库选择472.14.2WEB服务器和应用服务器472.14.3数据库建模工具482.14.4分析型工具482.14.5OLAP工具介绍492.14.6ORACLE公司OLAP介绍502.15开

4、发环境512.15.1硬件环境512.15.2操作系统512.15.3开发语言522.15.4数据库系统522.15.5中间件系统522.15.6应用系统533系统调试和测试533.1目的533.2基本要求543.2.1测试计划543.2.2测试说明543.2.3测试环境建立543.2.4测试报告543.3应遵循的原则543.4测试方法553.5测试重点554项目进度564.1项目资源计划564.1.1项目组564.1.2数据仓库领导小组办公室564.2项目工期计划564.3时间进度计划564.3.1数据仓库系统需求调查与两会系统574.4第一期开发主题574.5第二期开发主题574.6工作量

5、分配计划575小结586参考文献607附录617.1Oracle性能评估报告617.2主流WEB服务器比较657.3IBM小型机性能评估报告767.4详细网络拓扑图及设备清单787.5在多层体系结构下建立数据仓库83摘 要数据仓库系统的建立能够解决传统数据库不能很好提供分析决策功能的问题,能够发掘历史数据中隐含的大量有价值的信息,为国民经济的发展和宏观决策提供大量有效的参考信息。系统数据来源复杂,在数据仓库设计中不能采用常规方法解决问题;主题众多且分析热点会随时间变化而变化,要求主题下所含的信息在一定范围可变;主题下指标可能需要调整等实际情况,这和数据仓库的数据的不可修改性有矛盾;等等。我们结

6、合数据仓库的特点和系统实际情况,提供了一套完整的数据仓库系统的解决方案。整个数据仓库系统从数据采集到数据展现共分为四部分:1、数据抽取、转换、加载;2、系统管理(包括数据库维护);3、数据展现;4、支撑整个系统的数据库的设计(包括ETL中间数据库和数据仓库)保证系统具有相当的灵活性。各个部分独立完成本部分功能,同时紧密协作组成数据仓库系统。数据仓库系统管理与数据导入部分采用C/S模式有针对性的开发;数据仓库系统的数据展现采用流行的B/S模式向用户提供数据查询、决策分析。关键词:指标,主题,数据仓库,联机分析,数据挖掘,决策支持。1 概述1.1 背景经过2个多月的需求分析调查,确定了数据仓库系统

7、总体定位(省政府数据仓库是以充分发挥信息的社会作用和经济效益为最终目的)和系统功能需求。现根据需求分析规定和局具体情况,确定数据仓库整体方案,以指导数据仓库系统研究、开发、实现。省政府局数据具有建立数据仓库系统的基本条件:l 积累了大量历史数据,这是数据仓库存在的必要条件;l 随着市场经济的发展,社会各界(如金融投资等领域为了规避市场风险,提高决策的准确度,开发新的市场和利润增长点,挖掘市场潜力)对数据的需求不断增大,社会各界迫切需要利用数据进行决策分析,指导经济建设。省政府数据仓库建设存在以下困难:l 当前局各个处室没有统一规划的数据库系统;l 只有少量数据以电子文件形式存在,大部分历史数据

8、保存在纸介质上,到当前为止,建国以来的数据有一般以上以纸介质方式存储;l 由于中国制度在不断发展完善,指标在不同的历史时期的口径不同,为了使同类指标具有可比性,要确定不同时期各个指标的调整规则,并对历史数据按规则进行调整,这种调整除了少数指标能够按统一的算法进行以外,大部分调整工作需要人工参与;因此,省政府数据仓库的建设中数据的整理加载工作量极大,ETL(Extract、Transform、Cleaning、Load)工具开发难度大;完善的、与数据仓库系统良好联接的、统一规划的各个处室的数据库系统是据仓库系统的具有长久生命力的基本保障,因此各处室数据库的建设应同步进行。1.1.1 待开发的软件

9、系统名称省政府数据仓库系统1.1.2 系统的基本概念指标:系统的数据以指标为载体,所有的数据都是指标在不同时间,不同地域上的取值,统一指标可能有年度、月度、季度、半年、连续某几个月等时间段的数据,可能有国家、省、地、市、县、乡、村的数据,甚至有居民户、具体企业单位的明细数据,数据仓库中的数据就是这些数据的有机集合。主题:数据仓库中的数据按主题组织,这是由数据仓库以分析决策为主要目的决定的。主题是一个在较高层次上将数据归类的标准,每一个主题对应一个宏观的分析领域。省政府数据仓库是将指标数据按分析主题集成起来,供查询、分析、辅助决策。1.1.3 项目组名称数据仓库项目组1.1.4 项目代号XhnT

10、JDW001-00191.2 术语和缩写词指标:Statistical Parameter数据仓库:DW(DataWarehouse)主题:Subject数据集市:DataMart元数据:MetaData数据抽取、转换、加载:ETL(Extract、Transform、Cleaning、Load)联机分析处理:OLAP(On-LineAnalyticalProcessing)联机事务处理:OLTP(On-LineTransactionProcessing)决策支持系统:DSS(DecisionSupportSystem)数据挖掘:DM(DataMining)应用服务器:AS(Applicati

11、onServer)Web服务器:WebServer1.3 设计目标省政府数据仓库系统是以充分发挥信息的社会效益和经济价值为最终目的。将大量事务处理数据库中的数据进行清理、抽取和转换,并按决策主题进行多维重组,在高效的网络平台上充分发挥系统作为社会”数据库,信息库,思想库,智囊库”的作用,直接向党政领导、社会各界提供数据、信息服务,为信息工程建设提供一个”决策数据管理与分析中心”的基本解决方案。为省政府局建立一套面向党政领导、专业分析人员、广大社会群众对外发布信息的数据仓库系统。整个系统集数据采集、管理、维护、展现于一体,旨在建立数据仓库后既减轻局工作人员工作量,又能很好的为公众服务。前端数据展

12、现要有通用性,采用浏览器浏览数据,是瘦客户端。后端维护系统要具有高效性,能及时、高效处理、管理数据,功能强大,是胖客户端。数据仓库系统重在建立一个适应分析的系统环境,首期开发”两会”信息咨询,企业名录、人口普查、字典、工业经济、农业经济等主题。2 系统设计2.1 设计原则从充分发挥系统作为社会”数据库,信息库,思想库,智囊库”的作用,直接向党政领导、社会各界提供”快、精、准”的信息服务的需要出发,采用当今数据库领域成熟稳定的数据仓库、决策分析等技术,在高效的网络平台上为全省信息工程建设提供一个”决策数据管理与分析中心”的基本解决方案。1、 系统采用多层体系结构,建立一个良好开放性的数据仓库系统

13、环境,适应不断增加和变化的业务需求。多层体系结构经过引入中间层组件,扩大了传统的客户/服务器和两层计算模式。多层结构可由以下三类分层来定义:前端的客户层,负责提供可移植的表示逻辑;中间的应用层,允许用户经过将其与实际应用隔离而共享和控制业务逻辑;后端的数据管理与服务层,提供对专门服务(例如数据库服务器)的访问。多层结构与传统的客户/服务器结构的区别在于:在传统的客户/服务器两层结构中,用户将实际的业务逻辑放置到客户端(作为对表示逻辑的增补)或放置到后端数据库(作为数据逻辑的一部分包含在存储过程中)。而在多层结构中,用户将业务逻辑放到中间层上。这种模块化方法明确地划分了表示逻辑、业务逻辑和数据存

14、储。多层结构经过将应用逻辑集中到中间层,开发者能够迅速更新业务逻辑,而无需重新将应用递交到成千上万的桌面系统上。提高数据库的性能、改进系统的开放性、可扩展性和数据的安全性,并降低管理的复杂性。2、 结构化、层次化、模块化。采用面向对象技术,使系统高度结构化、模块化、层次化,整个系统由接口定义良好的多个模块组成,每个模块都有详细的功能说明和设计文稿,每个模块完成相对独立的功能,模块之间的接口定义规范,使模块功能的变化相对独立,不影响整个系统的功能和结构,便于系统升级,维护。3、 具有良好的平台移植性。选用支持多种操作平台的数据库服务器、应用服务器、WEB服务器等服务器软件系统,选用具有良好平台移

15、植性的B/S和C/S模式下的开发语言开发应用程序和应用中间件,提高应用系统的平台移植性;4、 统一性和多样性相结合。面向用户的各个应用系统,尽量保持统一风格以适应用户的操作习惯,但各个系统根据内容具有各自的特色,整个系统和谐统一,清新明了。5、 自主开发和利用现有工具相结合。尽量利用各成熟的数据仓库系统软件(工具)为数据仓库这个具有特殊性的项目服务,针对具有特殊性的需求,开发特定的系统软件,缩短数据仓库开发周期,降低开发成本,保证系统正常开发。6、 安全性的考虑。系统安全和数据安全是一个网络应用系统应该首先考虑的问题,数据仓库系统的设计要从网络安全、系统安全、数据安全等各个方面充分考虑,保障系

16、统安全稳定。7、 分散与集中相结合。数据仓库系统是一个非常庞大的系统,所有数据集中存储,但局各处室能分别维护本处室数据,数据仓库根据需要能对系统管理分别设置权限,不同用户维护不同数据。8、 稳定优先,注重效率。数据仓库的海量数据存储和高效查询是一对矛盾,在当今硬件技术不断发展和成本不断降低的形式下,我们优先考虑系统效率,可是在系统稳定性和效率不可兼顾时,以系统稳定优先。例如在数据仓库设计方面,我们经过逆规范化(引进适当冗余)来提高系统查询效率。9、 以最简单的方式实现复杂的功能。为提高系统的稳定性和可读性,可维护性,尽量采用简洁易懂的方式实现系统功能,不追求复杂、深奥的算法。2.2 系统结构2

17、.2.1 子系统划分整个系统按功能分为四大系统,各系统分别为:1. 数据库系统 中间数据库 数据仓库2. ETL系统 指标数据抽取子系统 指标数据加载子系统3. 系统管理系统 ETL管理管理子系统 数据仓库管理子系统元数据管理子系统4. 数据展现系统 应用服务器子系统 WEB服务器子系统 OLAP多维分析决策支持分析子系统 数据挖掘子系统图形展示子系统报表处理子系统数据导出子系统2.2.2 逻辑结构2.2.3 层次结构整个系统在逻辑上分为三层:原始数据层,中间逻辑层(业务逻辑层、WEB服务层、安全服务层),应用层。原始数据层:以统一规范的方式存储数据;中间逻辑层:解析应用层的业务逻辑,使应用层

18、和原始数据相互独立,提高应用层系统(程序)的可扩展性、可移植性;应用层:面向最终用户,提供友好、简洁、方便的用户界面,具有良好的业务无关性。2.2.4 网络拓扑结构我们根据以下列出的几点,确定硬件系统结构:1. 系统已经拥有比较完备的内部网络系统,此系统是全国系统的专用网络。2. 省政府数据仓库系统的数据、信息既能够在系统的网络内最大限度的实现数据共享,又能将能够对公众发布的信息分不同的级别向外界发布。3. 尽可能在网络设计上考虑防止黑客攻击、病毒传播等破坏数据的手段和方式。4. 尽可能利用现有网络系统,包括系统专有网,公共Internet网,政府办公局域网等。我们设计了一个在物理上能够随时隔

19、离或连接、由两大部分组成的网络系统结构,如下图所示:说明:1、 出于网络安全的原因,将整个网络分为内部网络和外部网络两部分。2、 内部网络与外部网络的系统机构基本相同。外部网络基本上用在对外发布,不包括保密信息。3、 外部网络需要的发布数据从内部网络中经过ETL工具获得,存放在外部网络的数据仓库中。4、 外部网络经过防火墙、路由器与Internet相连。5、 为保证数据安全,只在外部网络从内部网络抽取数据时,两者才是连通的(且要经过防火墙),其余时间两个网络物理隔离。6、 工作站分别为各个处室的个人PC机,也能够是单独的工作站,功能为向ETL服务器提供仓库所需数据及经过浏览器访问数据仓库数据信

20、息。7、 ETL工具定期从各个处室的数据库系统抽取数据,且ETL服务器兼中间数据库服务器,抽取的数据暂时保存在ETL服务器上,在导入数据仓库之前容许修改。8、 考虑到数据仓库系统决策分析时需要大量数据信息,因此要求交换机容量应为1000M。9、 OLAP服务器和应用服务器结合比较紧密,在实际的应用中共享一台设备。10、 入侵检测系统是一台单独的设备,放在路由之后,起到防止非法入侵的作用。11、 安全隐患扫描系统能够运行在一台高性能的PC机上,提供及时的安全扫描,及早发现问题。详细的硬件配置及全局网络拓扑参见附件:详细网络拓扑图及设备清单2.2.5 网络层次结构整个数据仓库系统由内而外分为四层:

21、1、系统内核层:包括数据仓库服务系统及应用系统。2、系统安全层:使用网络安全产品,与局现有网络系统兼容,保护内部数据安全,网上信息传送安全、防止黑客破坏或恶意入侵。3、公共网络层:基于TCP/IP的城域网和广域网(省局当前开通的帧中继网),使用现在已经建成的公共网络将数据、信息、知识发布出去。4、外部应用层:各种数据仓库系统的客户应用系统,经过外部应用系统用户能够获得系统提供的向外发布的各种信息。2.3 系统数据结构省政府数据仓库的数据是基于多维建模理论的关系型数据存储方式,采用多星型结构存储维度和事实数据。2.4 行业特殊需求 主题的增加系统的分析方向众多,涉及社会各界,且热点每年都会发生变

22、化,分析主题会随着社会经济的发展不断有所增加,我们采用自顶向下的设计方法来设计局数据仓库系统,采用自底向上的方式实施,这样每增加一个主题就是建设一个新的数据集市,每个数据集市都是整体数据仓库的有机组成部分,分步骤分阶段建成完整的数据仓库,在完整的数据仓库建立起来以后,就能够更快的建立更多的数据集市,满足系统不断增加的主题需求。 主题所含指标的修改主题的内容是由指标来体现,主题的分析目标可能在一定的范围内发生变化,起其所包含的指标就会有相应的增加或减少,由于数据仓库采用的是多维方式的数据存储方式,某个主题下指标的增加(减少),只需要在相应的指标维表、事实表中增加(减少)新的数据即可;每个主题在数

23、据库对应一个指标代码表,具体解释主题下所含指标。每个主题相关数据组成一个事实表。这样主题能够很方便增加,且效率比较高,主题下指标能够适当调整。 指标数据修改专业事实表(原始数据)主题事实表(用户使用数据)数据调整数据仓库中一个非常重要的原则,数据具有不可修改性。然而制度在不断地完善,指标口径会发生变化,为保持同一指标不同历史时期的数据具有可比性,则要求数据在一定范围内可调整。为了解决这一矛盾,我们在数据库设计时把数据分为原始专业数据和主题事实数据,的原始数据一旦进入数据仓库(专业事实表)将不容许发生变化,对指标进行调整都是基于原始专业数据进行的,调整后的数据放入主题数据表中,用户查询的是调整后

24、具有可比性的数据。这种设计能够容许对同一数据在不同历史时期进行不同的调整,同时又能保存最原始的历史数据不丢失,保持历史的真实性。 数据更新权限由于数据仓库的数据维护由分散的多个处室在不同的时间进行,为了防止数据的异步操作给系统的数据一致性问题。我们经过数据库操作权限的控制,保证每个指标数据只有唯一的用户拥有更新(增加、删除、修改)权限,但能够有多个用户有查询权限。 定时报警定时检测各个处室的数据是否按设计要求及时导入数据仓库,否则以适当方式报警。 决策算法的扩展由系统结构的高度模块化实现。 跨主题指标的查询经过调整主题指标,减少跨主题指标的查询;临时性的跨主题指标查询,利用全局指标库,从不同的

25、主题事实表中查询。 本地文件读写基于C/S模式的应用,将查询分析结果保存在本地是一件很容易的事情,但基于B/S模式的应用,虽然基于安全角度上的考虑,IE限制了ActiveX、JavaScript,、JavaApplet等对本地文件的读写;但对于JavaScript,ActiveX,能够经过配置IE的安全属性,来读写本地文件,当然,这种配置也会带来一些安全隐患,为一些恶意代码对本地文件系统造成破坏提供了机会,就JavaApplet而言,Java安全提供了API和工具集用于向应用程序或JavaApplet”注入”安全。提供细粒度(fine-grained)和可配置的访问控制的架构被内置到核心Jav

26、a安全体系结构之中,这是经过使用Java2权限、策略文件、访问控制器功能和数字签名实现的。 高频指标智能维护系统实现高频指标自适应功能:用户每次查询数据时,数据库自动指标查询次数,系统定时刷新高频指标表,完成高频指标的自动维护。2.5 底层数据库(仓库)设计2.5.1 设计原则数据库设计是整个数据仓库系统的核心,其设计的好坏关系着整个数据仓库系统建设的成败。根据数据仓库系统需求及Oracle9i数据库系统的特性,我们对数据仓库系统的数据库设计应遵循如下设计原则:1、 规范化原则:数据仓库系统是一个数据量大,开发周期长,投入资金大,涉及面广的系统工程。为开发和将来系统维护的方便我们对数据仓库中的

27、所有对象如表空间、数据文件、日志文件、表、视图、索引、存储过程、列,都要求有严格的命名规范2、 简洁性原则:数据库设计尽可能简洁和易理解,对常见的数据集可经过自定义数据类型来实现。3、 高效性原则:数据仓库中的数据达到TB级别,对查询速度的提高是我们考虑的重点,可经过建Index,Cluster,尽可能的用存储过程,允许适当的数据冗余等技术来保证查询效率。4、 灵活性原则:设计要充分考虑主题,指标等的变化5、 合理性原则:数据应在源头输入。数据库的生成和维护应尽量靠近信息源和使用点,使信息按最短的路径存取,以确保信息合理和快速流动。6、 独立性原则:数据库与应用程序严格的相互独立,确保数据的存

28、贮对应用程序的独立性,它的改变不影响应用程序。7、 安全性原则:由于局是国家一级保密单位,其信息对特定的用户有特定的保密要求,我们在设计数据库时要有必要的安全机制设计严格的数据操作权限和级别控制,保证数据不被非法用户访问,数据库不被黑客破坏,如在数据库的主键中加入操作用户的信息等等。2.5.2 数据现状-1、数据格式多种多样,一致性较差,并存在数据冗余各个处室使用的数据格式均不相同,有Oracle,dbf,sarp,MITT,Excel,Word,Text格式,且各个系统相对独立。-2、数据来源多,但数据存放相对分散,缺乏统一管理数据不但来源于局内部各个专业处室,而且大来源于直报企业和其它相关

29、部门或外部单位的报送。这些数据一般分散存放在各个专业科室的数据库中,缺乏集中存放和管理-3、数据量很大,但对数据资源的开发利用不充分业务涉及到各行各业和众多企业,指标很多,数据量很大,各级局只能做到将这些数据汇总成为报表、年鉴、县卡,还不能对专业数据进行各种深层次分析、综合、提炼、挖掘。不便于分析、预测。-4、偏重于上报报表在计划经济时期,局的职能主要是为上级机关报送报表;在市场经济时期,局不但要为上级机关报送报表,而且还要更多地为辅助本级政府宏观决策和企业微观决策及时提供各种信息和情报。新时期对信息的质量提出了更高的要求:l 为了对复杂的动态环境做出及时响应,现代管理要求在大量的数据中找出有

30、价值的信息和情报作为决策时参考的依据;l 在决策过程中,一旦需要,决策人员能够很快得到方方面面详尽的信息和情报支持,包括历史的、当前的、未来的各种信息和情报资源;l 支持对分布在不同地点的数据或信息进行操作,包括内部、外部或远程的数据和信息;l 支持对不同类型和格式的数据或信息进行操作;l 信息要为更广大的社会用户特别是企业的微观决策提供支持;l 要求信息资源能实现充分共享与快速交流。2.5.3 数据存储整体规划根据省局数据的特点,数据仓库的数据分为专业数据,主题数据和决策数据数据集市三个层次。这三个数据库层次逐层浓缩,其层次结构如下: 各专业数据流专业数据层数据存储层数据集市数据库模型专业数

31、据是从局各处室的数据库系统中抽取,转换,清洗而来的数据;主题数据是从专业数据经过增加一定的列或一定的数据运算、修改等而得到的数据;决策数据数据集市存放数据存储层的数据,供分析决策用。还有一类很重要的对数据仓库的描述数据即元数据,包括主题描述表,主题指标描述表等。专业数据层建立在相应的子系统中,是为专业子系统服务的。其数据主要是与某专业子系统直接相关的数据。一般与其它专业子系统不发生频繁的数据共享,它的物理位置能够设置在网络服务器上,集中存储,亦可设置在各专业子系统的微机上,呈分布式存储。数据存储层,其数据来源于专业数据层,但这些数据一般不限于某个专业子系统调用,而往往被其它专业子系统频繁地共享

32、,为若干个子系统和领导层提供信息服务。数据集市中存放对整个行业来说,带全局性的计划、技术经济指标,各种和实时数据分析,其数据除了来源于各主题数据库以外,还有模型库和方法库给予支持,作为领导提供预测和决策的支持。能源工业工业经济决策交通邮电消费生产价格居民家庭收入城市社会经济决策元数据数据仓库数据组成示例单个主题的数据库逻辑设计地域维表地域编号地域名称时间维表时间编号时间名称专业事实表指标编号时间编号地域编号数据指标维表指标编号指标名称时间维表时间编码时间名称主题事实表指标编码时间编码地域编码数据指标维表指标编号指标名称地域维表地域编号地域名称主题所属指标主题编号指标编号主题表主题编码主题描述2

33、.6 ETL系统2.6.1 需求规定 采用自动加手动的方式导入数据。 数据导入以定期自动导入为主,设立到期自动报警功能。 各个处室能够在任何时候向ETL服务器导入数据,而只在确定的时间从ETL服务器向数据仓库导入数据。 提供导入数据的接口,直接与各个处室的数据库连接,尽可能利用现有系统数据,减轻各处室工作量。 能够与通用的数据文件进行连接,适应各专业处室可能的数据库平台的变更,能导入同种类型的不同格式的数据。2.6.2 运行环境服务端指标数据加载子系统运行于主流UNIX操作系统客户端指标数据抽取子系统运行在高性能PC上,Windows98以上版本操作系统,需要有Oracle客户端支持。2.6.

34、3 设计思想指标数据抽取子系统1、 建立灵活的数据导入方式,直接利用中间件ODBC访问各种数据库系统。2、 建立统一的环境,各个处室在统一的环境下向中间数据库导入数据。3、 经过用户权限区别各个处室应该导入的数据,让不同用户在导入数据时不会发生混乱。指标数据加载子系统1、 程序自动运行的同时引进人工干预,定时启动加载系统,自动进行中间数据库向数据仓库导入数据的工作。2、 建立一个数据导入的环境,各种数据操作按中间数据库模型库中的规定执行。2.6.4 结构说明局各种行业数据不是在统一的时间生成,数据在进入数据仓库之前需要经过大量的运算,为了不影响原有系统的正常运行和保证导入数据仓库数据的正确性与

35、有效性,设置中间数据库。中间数据库起所有数据从传统数据库导入到数据仓库的过渡作用。处室数据存放在不同媒介中,提供手动输入界面、程序自动导入功能、半自动导入等等。接收从局各个处室收集的指标数据,经过抽取、清洗,存放在中间数据库,在特定的时间检查数据仓库需要的数据是否齐全,齐全后一次性加载到数据仓库的专业事实表中。人工输入数据仓库中间数据库自动导入各个处室数据抽取、清洗、转换、加载过程高度模块化, ETL系统用数据抽取模型从各处室抽取数据、用数据清洗模型清洗数据、用转换模型转换不同类型的数据、用加载模型加载数据到数据仓库。ETL系统是一个体系环境,各种数据操作按中间数据库模型库中的规定执行。维护系

36、统则经过维护中间数据库的模型库达到维护ETL服务器的目的。数据抽取、清洗、转换、加载有以下子系统:1. 指标数据抽取子系统。这个系统又能够称为数据导入。功能:数据抽取、数据清洗。把各个处室不同格式的数据按指标进行抽取、经过清洗后存入中间数据库,容许数据修改。指标数据抽取子系统能收集各种通用格式的数据,提供输入界面手动输入数据。能转换以下几种数据格式:Sybase、Oracle、db2、dbf等能够经过odbc访问的数据库,和Excel数据以及按顺序排列数据的文本文件。各种格式的数据都有对应的模块,这些模块遵循统一数据接口,能够不断增加并识别新的数据格式。2. 指标数据加载子系统。功能:数据转换

37、、数据加载。把中间数据库所有指标数据经过转换后,加载到数据仓库中。2.6.5 处理流程指标数据抽取子系统经过读取ETL中间数据库中的抽取模型和清洗模型,把各个处室的数据暂存到中间数据库。指标数据加载子系统读取中间数据库中的转换模型与加载模型,把中间数据库的数据加载到数据仓库中。2.7 系统管理2.7.1 需求规定 数据的维护1、 年度数据至少保存 以上;进度(月、季、半年度)数据至少保存5年以上;在条件容许的情况下,数据保存尽可能长的时间。2、 历史数据的导出、导入功能。3、 随着指标体系的变化,能够对数据进行少量修改,插入、增加新的数据。4、 对时间跨度很大的普查数据等非时间累加数据按实际需

38、要保存相应年限。5、 对数据要进行备份。 指标的维护1. 数据库指标管理、维护,随时间的推移可增加主题下包括的指标;2. 能适应制度的变化,指标口径(指标含义)能进行适当调整。3. 行政区划代码允许调整。 系统的维护1. 设置不同级别用户的维护访问权限。2. 各个处室只有维护本处室相应主题部分的权限。外界用户无权访问维护系统。3. 系统管理具备日志功能。 主题的维护随着时间、形式的变化,主题能够增加或减少。 分析方法的维护1. 对现有分析方法提供描述,能够对分析方法进行修改。2. 能够增加分析方法。 备份数据仓库的备份与灾难恢复功能。2.7.2 运行环境系统运行在高性能PC机上,操作系统为Wi

39、ndows系统。2.7.3 设计思想1、 系统管理系统自主开发。2、 在操作习惯、程序风格上与Windows一致。2.7.4 结构说明系统管理是整个数据仓库系统的保障系统,保障数据仓库系统正常运行。系统管理分为两大子系统:ETL管理子系统、数据仓库管理子系统,分别管理ETL服务器中间数据库系统和数据仓库系统。ETL服务器系统管理指标管理主题管理备份与维护权限管理元数据管理数据仓库1、 ETL管理子系统所有转换规则都存在数据库中,ETL管理子系统经过维护数据库中数据达到维护ETL服务器的目的。维护子系统经过各种可视化友好界面提供给用户简洁明了维护方式。 维护ETL服务器数据抽取模型库,确保从局各

40、处室收集对号入座;维护ETL服务器数据清洗模型,避免垃圾数据进入数据仓库; 维护ETL服务器数据转换模型,保证转换的正确性; 维护ETL服务器数据加载模型,保持ETL服务器中指标与数据仓库指标的统一。 进行ETL服务器数据维护,采用备份与恢复避免中间数据库数据遗失。 经过ETL加载子系统提供的接口,控制ETL加载子系统的运行。2、 数据仓库管理子系统 元数据管理:管理关于数据的数据,它描述的是数据仓库的数据和环境。元数据分为两类:一类是管理元数据,它是对元数据及其内容,数据仓库主题,数据转换及各种操作信息的描述;另一类是用户元数据,它帮助用户查询信息,理解结果,了解数据仓库中的数据和组织等。

41、决策模型库维护 主题库维护 数据备份与维护 挖掘模型库维护 高频数据维护2.7.5 处理流程数据仓库管理子系统:对数据仓库的数据进行定期的自动或手动维护,包括备份与恢复。元数据分类:技术元数据;商业元数据;数据仓库操作型信息。ETL管理子系统2.8 数据展现2.8.1 需求规定 查询1. 能够方便的对数据仓库内的所有数据进行检索、查询。能进行任意条件组合查询,并支持模糊查询等2. 具有智能高频指标自适应功能,能根据用户使用的频率,对高频指标表进行自动维护。3. 提供关联指标的搜索功能。 导出1. 数据的展现能提供文字说明、简单图表显示、多种图形(线图、饼图,方柱图等)直观显示(达到两会系统的图

42、形功能)。2. 主栏、宾栏能够互换,能够显示多层表格结构。3. 简单的运算功能:计算均值、最大值、最小值、求和、发展速度、比重、标准差,能够排序。4. 提供经济地图的直观表示。5. 能够打印报表、图形。6. 提供通用数据格式的查询数据导出功能,包括文本、dbf库文件、Word文档、Excel表格。7. 所查询出来的表能保存或另存为其它格式文件。8. 提供简单分析报告自动生成功能。9. 展现结果可经过用户列表形式用E-mail向用户发送,也可进行功能设置,定时自动发送。联机分析(OLAP:On-Line Analytical Processing)能够进行时间序列分析和变量分析。A. 时间序列分

43、析: 普通最小二乘法(Ls) 带有自回归误差校正项的最小二乘法 两阶段最小二乘法 加权最小二乘法 加权两阶段最小二乘法 非线性最小二乘法 加权非线性最小二乘法B. 变量分析: 主成分分析 相关分析 判别分析 因子分析 聚类分析 数据挖掘决策支持、数据挖掘子系统能够进行数据钻取、挖掘。能够从分析结果逐步查询到更详细的数据。2.8.2 运行环境服务系统运行在UNIX操作系统下。浏览器运行在采用HTTP协议的任何操作系统下。2.8.3 设计思想1、 尽量选用当前成熟的OLAP多维分析、数据挖掘工具。2、 对有特殊要求的决策支持算法,采用在购买的软件包上进行二次开发。3、 Web页面采用以抽象画为主格

44、调的背景,高雅清新的页面风格。4、 各个主题格调保持基本一致,但各个具体主题的用户界面各有特色,突出各自主题特点。2.8.4 结构说明应用服务器直接与数据仓库交互,处理外界查询请求;WEB服务器完成和用户的交互,直接为用户提供查询、分析数据,接受用户输入;OLAP服务器与用服务器交互得到大量数据,将对大量数据进行分析计算的结果返回给WEB服务器。提供给用户访问数据仓库的接口,使数据仓库的访问对用户透明,完成数据从数据仓库中提取后经过运算、分析,用直观的方式展现给用户。数据仓库数据展现报表处理查询数据导出简单分析报告生成即席查询、排序多种图表直观显示多种决策算法数据展现采用多种灵活的方式,比如客

45、户/服务器模式或浏览器/服务器模式。我们分为以下子系统:1、 应用服务器是数据仓库与应用系统的统一,使应用系统访问数据不需了解数据仓库设计。2、 OLAP决策分析子系统进行多维分析、利用决策模型进行决策分析。按要求生成简单文字分析报告。3、 WEB服务器使用户能经过浏览器访问数据仓库,其中还包括协调控制数据展现系统的各子系统,为用户提供与数据仓库交互界面,处理用户的查询分析请求。4、 报表处理子系统满足用户对报表的处理、打印请求。5、 数据挖掘子系统对数据进行分析挖掘。6、 图形展示子系统对输入的数据进行各种图形展示,输出数据表格、饼图、柱状图、折线图等等。7、 数据导出子系统WEB服务器应用

46、服务器用户浏览器图形展示子系统OLAP决策分析子系统数据挖掘子系统数据导出子系统报表处理子系统对用户需要导出查询数据时,将需要导出的数据按各种通用格式导出。2.8.5 处理流程数据展现系统采用J2EE技术平台,解决用户对数据仓库的数据访问、运算、展现等问题。2.9 接口设计2.9.1 外部接口1、 用户接口数据展现部分采用浏览器的模式与用户交互信息。数据采集、原数据管理系统采用C/S模式与用户交互2、 硬件接口本系统没有特定的硬件接口3、 软件接口 ETL系统接口:ETL系统分为指标数据加载子系统和指标数据抽取子系统,指标数据抽取子系统为指标数据加载子系统提供原始数据。指标数据抽取子系统是完全

47、模块化的。各模块完全独立,具有完整的数据抽取、清洗功能,根据不同的源数据类型开发相应的模块,保证现在数据格式有相应的数据采集模块、新增或更换了数据格式,只需添加或修改相应的模块即可,易于维护和升级。因此,指标数据抽取子系统读取数据(数据导入)时,经过ODBC标准接口获得数据。指标数据加载子系统检测客户端提交到中间数据库的数据完整且合符要求时,容许将数据从中间数据库加载到数据仓库专业事实表。 系统管理系统接口:系统管理系统分为ETL管理子系统和数据仓库管理子系统,ETL管理子系统经过管理ETL中间数据库的模型库达到管理指标数据抽取子系统和指标数据加载子系统的目的。 数据展现系统接口:数据展现有两

48、种形式,一种是静态展现,即将事先定义好的结构和模式将某种结果强制性的展现,另一种是交互式的展现,由用户提出请求后,按用户的实时要求进行展现,数据展现的过程为,用户经过WEB界面提交请求,WEB服务器,将接收的用户请求提交给应用服务器,应用服务器按用户请求,返回的相应数据提交OLAP服务器按指定要求处理或直接送到WEB服务器,展现给用户。因此,WEB服务器提供接收用户请求接口,应用服务器提供访问数据仓库接口,OLAP服务器提供接收数据仓为返回数据接口。 其它接口以各个子系统之间的接口为准。4、 通讯接口以各个子系统的接口为准。2.9.2 内部接口以各个子系统的接口为准。2.10 安全设计2.10

49、.1 网络安全针对省局内部网的网络、系统现状,特别是因特网出口、数据库服务器等安全薄弱环节,我们制订了具有针对性的安全解决方案,以确保省局的内部网络及数据仓库系统更安全。1、 防火墙黑客一般会利用因特网出口来攻击内部网络。为了将外网(Internet)和内网进行有效的安全隔离,确保内网的安全,在与Internet连接的出口处应安装防火墙。在内部网与Internet连接的出口处安装防火墙有重要意义:(1)保护脆弱的服务:经过过滤不安全的服务,防火墙能够极大地提高网络安全和减少子网中主机的风险。例如,防火墙能够禁止NIS、NFS服务经过,防火墙同时能够拒绝源路由和ICMP重定向封包等。(2)控制对

50、系统的访问:防火墙能够提供对系统的访问控制。如允许从外部访问某些主机,同时禁止访问另外的主机。例如,防火墙允许外部访问特定的邮件服务器和Web服务器。(3)集中的安全管理:防火墙对企业内部网实现集中的安全管理,在防火墙定义的安全规则能够运用于整个内部网络系统,而无须在内部网每台机器上分别设立安全策略。如在防火墙能够定义不同的认证方法,而不需在每台机器上分别安装特定的认证软件。外部用户也只需要经过次认证即可访问内部网。(4)增强的保密性:使用防火墙能够阻止攻击者获取攻击网络系统的有用信息,如Finger和DNS。(5)记录和网络利用数据以及非法使用数据:防火墙能够记录和经过防火墙的网络通讯,提供

51、关于网络使用的数据,而且防火墙能够提供数据,来判断可能的攻击和探测。(6)策略执行:防火墙提供了制定和执行网络安全策略的手段。未设置防火墙时,网络安全取决于每台主机的用户。推荐产品:NetScreen公司NetScreen-100防火墙。2、 入侵检测利用防火墙技术,经过仔细的配置,一般能够在内外网之间提供安全的网络保护,降低了网络安全风险。可是,仅仅使用防火墙、网络安全还远远不够:(1)入侵者可寻找防火墙背后可能敞开的后门;(2)入侵者可能就在防火墙内;(3)由于性能的限制,防火墙一般不能提供实时的入侵检测能力。入侵检测系统是近年出现的新型网络安全技术,目的是提供实时的入侵检测及采取相应的防

52、护手段,如记录证据用于跟踪和恢复、断开网络连接等。实时入侵检测能力之因此重要,首先是它能够对付来自内部网络的攻击,其次它能够缩短黑客入侵的时间。入侵检测系统经过监控系统事件和传输的网络数据,对可疑的行为进行自动监测和安全响应,使用户的系统在受到危害之前即可截取并终止非法入侵的行为和内部网络的误用,从而最大程度地降低安全风险,保护企业网络的系统安全。推荐产品:网络隐患扫描网络隐患扫描主要是对被检测网络里的设备(比如主机、路由器和交换机等)进行安全检测,找出它们隐藏的安全漏洞,及时对这些漏洞进行修补,从而消除安全隐患。它在网络层扫描各种设备,检查路由器、Web服务器、Unix服务器、Windows

53、NT服务器、桌面系统和防火墙的安全漏洞,它不但给用户提供网络的安全状况的清晰图象,使用户了解其网络的安全状况,并对存在的问题和漏洞给予及时的排解和补救,同时还支持用户建立适应性的安全策略和有效地安全模式,为用户提供专业的安全报告,包括修改建议和专业知识库等。推荐产品:。3、 安全服务网络是动态的,网络安全也是动态的。因此,网络安全并不是只依赖于某些安全产品就能解决的,不可能一劳永逸。它需要合理的安全保障体系和适当的安全产品组合,更需要根据网络系统需求及网络用户的实际情况来规划、设计和实施一定的安全策略,对网络安全状态进行评估,找出企业网络的安全缺陷,实施安全审计和操作,这些都属于安全服务的范畴

54、。安全产品和安全服务从来都是密不可分的。这里指的服务并不但仅是针对我们产品的售后服务。网络安全服务是一个广义的概念,它是针对服务对象的行业特点、网络安全所面临的威胁和特定的安全需求,为客户量身定制的一揽子解决方案与具体实现,是一项从安全评估与技术咨询、方案设计、方案实施、验收到定期安全检测、安全技术培训、应急响应支持的全面的、综合的服务。公司作为一家专业的网络安全服务商,长期以来,一直致力于为客户提供高质量、高效率、高可靠性的解决方案、自主知识产权的安全产品和长期、优质、全面的网络安全服务。我们提供企业级的整体安全策略和解决方案,并基于您的具体需求来保障网络的安全性,对安全事件进行快速响应。服

55、务流程:安全评估与技术咨询方 案 设 计客 户 确 认方 案 实 施验 收安 全 技 术 培 训应 急 响 应 支 持定 期 安 全 检 测2.10.2 数据库安全1、创立和管理用户建立用户表,设置用户操作功能子系统的范围,根据用户的身份和级别,确定哪些功能不能访问,哪些功能能访问(功能级限制),或是同一级功能下哪些数据可访问,哪些数据不可访问(信息级限制);2、管理权限和角色利用数据库的用户安全机制,如ORACLE数据库中的数据库管理员(DBA)特权、资源(Resource)特权、连接(Connect)特权等能够分别授予ORACLE用户。(用系统权限来控制用户能否对数据库执行操作。对象权限控

56、制用户能否对单个对象(例如表和视图)执行操作;角色经过将相关的权限集合在一个单一的角色下,使DBA和应用程序开发者能简化权限管理。)3、创立和分配用户配置文件制定用户配置文件Profile,限制用户的行为。限制一组用户能够使用的系统资源。例如,它能够使数据库终止执行了一个小时以上的查询;用Profile能够限制用户对CPU资源的消耗,而且能增强口令的复杂性。Profile也能够定义口令多长时间需要被更新一次等。4、其它数据库内部执行级安全管理,主要有下面几点的结合:用视图限制用户能够查看的数据用触发器阻止越权更新表用存储过程作为管理更新和删除的工具5、数据库扫描数据仓库是省局数据仓库系统中最重

57、要的保护对象,数据库服务器存储了大量敏感的机密数据,是黑客攻击的重点,其安全性至关重要。因此,为数据仓库建立严格的安全防范措施非常必要。数据库扫描是一个针对数据库管理系统风险评估的检测工具。利用它能够建立数据库的安全规则,经过运行审核程序来提供有关安全风险和位置的简明报告。利用数据库扫描器对数据库进行定期的安全检查能大大提高数据库的安全。推荐产品:ISS公司的数据库扫描器(DatabaseScanner)。2.11 系统可靠性设计2.11.1 可靠性1) 数据库系统运行在具有高可靠性的UNIX操作系统平台下,保障了系统运行的高可靠性和长期运行的高稳定性;2) 最终数据使用用户经过浏览器获取数据

58、,浏览器本身的可靠性保证了用户软件的可靠性;2.11.2 可维护性1、 数据展现部分采用了B/S模式,只要浏览器正常工作,数据查询用户不需要进行维护,后台系统的维护升级对用户上透明的。2、 数据采集、元数据管理部分功能要求强大,且具有针对性。采用C/S模式,其用户量少,系统维护量相对较小。2.11.3 可扩展性1、 可导入源数据类型的可扩展性:ETL抽取子系统是完全模块化的,增加新的源数据类型只需要开发相应的功能模块,在理论上具有无限扩展性。2、 主题的扩展性和主题下指标的扩展性:参见技术分析部分3、 OLAP分析模式、决策算法的扩展性:采用组件技术和动态联接库。2.11.4 健壮性1、 B/

59、S模式客户端(Browser)的健壮性:IE等浏览器为通用程序,其健壮性由开发商保证2、 C/S模式客户端(Client)的健壮性:经过充分调试、严格测试提高其健壮性3、 数据库系统的健壮性:保障数据库系统的软硬件环境,其健壮性由数据库厂商产品保证4、 中间件系统的健壮性:应用服务器和WEB服务器的健壮性由系统软件生产商产品保证,自主开发的中间件经过精心调试和严格测试来保证2.11.5 性能保证1. B/S模式速度:优化中间件程序设计,提高其性能、效率;优化数据库设计,提高后台数据库的性能2. 并发性能:中间件产品和数据库系统都有良好的并发控制性能。3. 数据流量控制:限制最多同时使用用户数,

60、适当配置网络参数4. 稳定性:严格单元测试,长时间高负荷系统性能测试2.11.6 出错处理1. 出错类别 网络连接故障:整个系统由于网络环境的原因,导致不能正常通信。 系统连接故障由于系统的问题,或者是人为的操作故障导致各个子系统无法正常联系。 ETL系统问题由于人为的制造无效字符、无效数据到临时数据库,导入数据仓库时发生的故障。 系统崩溃由于人为的错误、外界原因、系统本身的不完整性等导致数据库系统、应用服务器/WEB服务器发生致命的错误,而影响整个数据仓库系统的正常运行。2. 出错处理 自动报警技术,系统定时检测网络系统和自身系统,一旦发生自身能检测到的错误则发出报警,报警的方式有图象提示,声音提示、日志提示; 按备份方案进行系统备份,系统出错或崩溃后迅速将系统恢复; 各个系统保存系统运行日志,保存错误信息,方便解决问题; 疑难问题能够从Oracle公司获得咨询帮助。2.11.7 备份与恢复1、 建立完善的备份制度明确说明每天的备份以什么方式、使用什么备份介质进行,是系统备份方案的具体实施细则。在制订完毕后,应严格按照制度进行日常备份,否则将无法达到备份方案的目标。2、 数据备份方式

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!