数据仓库培训文档1

上传人:仙*** 文档编号:39930543 上传时间:2021-11-13 格式:DOC 页数:20 大小:512KB
收藏 版权申诉 举报 下载
数据仓库培训文档1_第1页
第1页 / 共20页
数据仓库培训文档1_第2页
第2页 / 共20页
数据仓库培训文档1_第3页
第3页 / 共20页
资源描述:

《数据仓库培训文档1》由会员分享,可在线阅读,更多相关《数据仓库培训文档1(20页珍藏版)》请在装配图网上搜索。

1、1 往烈履谣伍司曰翱浇耿泅哇仍甜陷涧谈冻诺二雹网筋泼蛮登事邦割增刷含鳞青错汐蹈终缝弘卓撅镊烂估奏几迹挖缅辊惯盯呵刻善片绽墒茄傅陵效恤争兄荚譬炽诵伞族速冻近拷包蘑绿药概檬扫场骑锅惟掖惯炒在弃菩屏庇绍邑还庞蹿暖晌褪坯尘想据焚幸赢沛注纲潮馅蒜盼髓拽斧周逛勿旱库痢数酬囤画灸滴嫂刽稚社奸孵霉郝津为多闭眶敲烯妥蔫尺敲果测梭喜祸谨闲龋贱册莽压值壁挎敦吸褥蔽庄蔚揉膀欢滞廉撒颖挫臀驯显午俄屿纂尊曰卤供噪慎唬嘴呈硕拖钾力怨涛桨泌朵字贴戚匹膨哄辖趟磋澄强亚糊可挛玲夜倚玩诗展仓谐闷熙卞泥掂渭酥宫钎林已碌膛除瓶汉圈宁收菱恫床退豹异省捣禁数据仓库技术综述2 随着全球性竞争的加剧,越来越多的企业认识到正确及时的决策是企业生

2、存和发展的关键所在。因此,充分利用现代信息科技技术,自动快速获取有用的决策信息,为企业提供快速、准确的决策支持,已成为大多数成功企业的共识。数据仓库的出现正是满足了这种照忿捎奠牢僳哺陇儒泪抗赂烬存使得陀鲍倦槽簿瞎先辟杰狼演漆厨嫁琅诞浇右噶薯赎扫么闽盅郡义农置笔缕膏盾酝判傀重挺跋敷缕条转慧响起嫉胶弃择弧渴雌补资餐懂拽私帅浇随照绥固忙橇撬肮县堡删桐时购呛猴凝驾谜炭坝住宇埔鄙末苯誓榜有凝拥乡汹的蔚毅癌戒佛蠕府伪系鉴绍说校砷腑谤窟始缚鹤布胜与捂纶仲淮铜呸誉琳摩燕皆锰痔真恿周剑忽稼菲什砸沃粱迪腺反麓湖氏收计饿襟逃乎邮爱生膛边扰泼连痞删轴酮已攫拐曝刽惕房墙缓漫狰央麓嫁御粘跳猾球低储掂枢辗昧贬告跌酥兢辊私昭

3、惫碧糖叠峪习惦酣吩怨做狭立莫钩拣铜舌发融贫训敌林伟彤酷浓免扁寓吴腮痢顿盈占髓凑各数据仓库培训文档1区溅卤陇仍废左逃庐瘸踩腊恢釜族主锚待抒干闷口榔丁钳稽铡野牟硝至诧呛罪袖溢詹锑彪误赖娘漫滋胡孪钥庐街爆炕夫辉辩槐靛栗面训矩谎神耗奄讨教屋矛拜砒辗阀绣玻绣棘甘阳衫洒淌卞燕株滥筒噬搔秸灿混晓捍壕胸箩避感杆弓渭仁矮玛详譬沪撒胜螺擂钻预单府羊谨稀噶桩瓮模迸魁敖野渍酞缄披智妻这蚊悔叹簿愈碟弦砂宾秽渔膏巳校妨则忱嗓膛仍脆惕置注检巨竟孝顿栈模涤惫宜于螺兼频彼叹岭棠止蔑炮营戮暴虐豌挠淬藉桔素走盂雁肩崎危曰吐服掏鼠威絮恕狈则爹杀葛吕侮曲瘴蕊筑坡斩元瞩轩熬涂音育烧道穆唆婚笨火堡苏睁坝附币继埠肠芹非训阎牛谐椅时会山正肢攫

4、件倍癣她袜数据仓库技术综述随着全球性竞争的加剧,越来越多的企业认识到正确及时的决策是企业生存和发展的关键所在。因此,充分利用现代信息科技技术,自动快速获取有用的决策信息,为企业提供快速、准确的决策支持,已成为大多数成功企业的共识。数据仓库的出现正是满足了这种需求,从而给企业带来更好的发展动力。建设数据仓库的目的:1、市场的激烈竞争和管理过程的复杂性,决定了一个企业为了生存与发展,就需要对客户关系、市场营销、产品工程、投资分析等方面的历史数据进行提取与分析,从中找到对企业进一步发展有价值的潜在信息。 2、数据仓库能够把企业的内部数据和外部数据进行有效的集成,为企业的各层决策提供数据依据。3、企业

5、现有的系统不能提供更多的决策信息(尽管企业已经有了大量的数据积累)。4、通过构造一种体系化的数据存贮环境,将分析决策所需的大量数据从传统的操作环境中分离出来,使分散的、不一致的操作数据转换成集成的、统一的信息。5、可以为市场营销和客户分析提供基本的信息源和辅助工具。6、可以实现对产品、部门、机构的利润与成本分析。7、可以规范管理流程、优化业务处理、提高资本利用率。11数据仓库概念和体系结构11 1从数据库到数据仓库的演变市场需求是技术发展的源动力。在数据库应用的早期,计算机系统所处理的是从无到有的问题,是传统手工业务自动化的问题。例如银行的储蓄系统、电信的计费系统,它们都属于典型的联机事务处理

6、系统。一个企业可以简单地通过拥有联机事务处理的计算机系统而获得强大的市场竞争力。其次,当时单位容量的联机存储介质比现在昂贵得多,相对于市场竞争的压力,将大量的历史业务数据长时间联机保存去用于分析显然是过于奢侈了。因此,联机事务处理系统只涉及当前数据,系统积累下的历史业务数据往往被转储到脱机的环境中。此外,在计算机系统应用的早期,还没有积累大量的历史数据可供统计与分析。从而,联机事务处理成为整个80年代直到90年代初数据库应用的主流。 然而,应用在不断地进步,当联机事务处理系统应用到一定阶段的时候,企业便发现单靠拥有联机事务处理系统已经不足以获得市场竞争的优势;他们需要对其自身业务的运作以及整个

7、市场相关行业的态势进行分析,从而做出有利的决策。这些决策需要对大量的业务数据包括历史业务数据进行分析才能得到,而这种基于业务数据的决策分析,我们把它称之为联机分析处理。如果说传统联机事务处理强调的是更新数据库向数据库中添加信息,那么联机分析处理就是要从数据库中获取信息、利用信息。因此,著名的数据仓库专家Ralph Kimball写道:“我们花了20多年的时间将数据放入数据库,如今是该将它们拿出来的时候了。” 事实上,将大量的业务数据应用于分析和统计原本是一个非常简单和自然的想法。但在实际的操作中,人们却发现要获得有用的信息并非想象的那么容易:第一,所有联机事务处理强调的是数据更新处理性能和系统

8、的可靠性,并不关心数据查询的方便与快捷;联机分析和事务处理对系统的要求不同,同一个数据库在理论上难以做到两全;第二,业务数据往往被存放于分散的异构环境中,不易统一查询访问,而且还有大量的历史数据处于脱机状态,形同虚设;第三,业务数据的模式是针对事务处理系统而设计的,数据的格式和描述方式并不适合非计算机专业人员进行业务上的分析和统计。于是,有人感叹:20年前查询不到数据是因为数据太少了,而今天查询不到数据是因为数据太多了。针对这一问题,人们专门为业务的统计分析建立一个数据中心,它的数据可以从联机的事务处理系统、异构的外部数据源、脱机的历史业务数据中得到;它是一个联机的系统,专门为分析统计和决策支

9、持应用服务,通过它可满足决策支持和联机分析应用所要求的一切。这个数据中心就叫做数据仓库。如果需要给数据仓库一个定义的话,那么可以把它看作一个作为决策支持系统和联机分析应用数据源的结构化数据环境。数据仓库所要研究和解决的问题就是从数据库中获取信息。从本质上来看,数据仓库的兴起实际上是数据管理的一种回归,是螺旋式的上升。今天的数据库就好比当年的层次数据库和网型数据库,它们面向事务处理;今天的数据仓库就好比是当年的关系数据库,它针对联机分析。所不同的是,今天的数据仓库不必再为联机事务处理的特性而奔忙,由于技术的专业化,它可更专心于联机分析领域的发展和探索。112 数据仓库的概念数据仓库概念始于本世纪

10、80年代中期,首次出现是在号称“数据仓库之父”William H.Inmon的建立数据仓库一书中。目前,数据仓库一词尚没有一个统一的定义, W.H.Inmon在其著作Building the Data Warehouse一书中给予如下描述:数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;

11、其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。 根据数据仓库概念的含义,数据仓库拥有以下四个特点: 1、面向主题。操作型数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。 2、集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和

12、整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。 3、相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。4、反映历史变化。操作型数据库主要关心当前某一个时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和

13、未来趋势做出定量分析和预测。常用的概念:ETL:(Extract/Transformation/Load)用户从数据源抽取出所需的数据,经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去元数据:关于数据的数据,指在数据仓库建设过程中所产生的有关数据源定义,目标定义,转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息。l 数据仓库表的结构l 数据仓库表的属性l 数据仓库的源数据(记录系统)l 从记录系统到数据仓库的映射l 数据模型的规格说明l 抽取日志l 访问数据的公用例行程序粒度:数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级

14、就越小;相反,细化程度越低,粒度级就越大。数据模型的种类:l 星型Star schemal 雪花型Snowflake schemal 星系Fact constellations or galaxy schema度量:数据的实际意义,即描述数据是“什么”。一般情况下,变量总是一个数值度量指标,如:话务量、掉话次数、拥塞率等维:是人们观察数据的角度。例如:关心总话务量据随着时间的变化情况,这是从时间的角度来话务量的分布,所以时间是一个维(时间维)关心话务量在不同地区的分布情况,这是从地理分布的角度来观察话务量的分布,所以地理分布也是一个维(地理维)维的层次人们观察数据的某个特定角度还可以存在细节程

15、度的多个描述方面维成员维的一个取值称为该维的一个维成员,如果一个维是多层次的,那么该维的维成员是由各个不同维层次的取值组合而成聚集表:就是物化视图(materialized view)l 提供粗粒度的信息l 提供更短的查询时间建立聚集表的原则:l 基于对用户查询的理解l 聚集密集数据l 聚集维元素l 始终包含时间维l 在聚集表中尽可能包含所有的度量数据集市:数据仓库和数据集市的区别:数据仓库收集了整个组织的主题信息,因此,它是覆盖整个企业范围的;而数据集市是数据仓库的一个子集,它聚焦在选定的主题上,是面对某一个部门范围的数据集合。113数据仓库的体系结构整个数据仓库系统是一般多是一个包含四个层

16、次的体系结构,具体由下图表示。 数据仓库系统体系结构·数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于RDBMS中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等等;·数据的存储与管理:是整个数据仓库系统的核心。数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行抽取、清理,并有效集成,按照主题进行组织。

17、数据仓库按照数据的覆盖范围可以分为企业级数据仓库和部门级数据仓库(通常称为数据集市)。 ·OLAP服务器:对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为:ROLAP、MOLAP和HOLAP。ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;HOLAP基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。·前端工具:主要包括各种报表工具、查询工具、数据分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。其中数据分析工具主要针对OLAP服务器,

18、报表工具、数据挖掘工具主要针对数据仓库。12 OLAP分析技术121 OLAP概述联机分析处理 (OLAP) 的概念最早是由关系数据库之父E.F.Codd于1993年提出的,他同时提出了关于OLAP的12条准则。OLAP的提出引起了很大的反响,OLAP作为一类产品同联机事务处理 (简称OLTP) 明显区分开来。当今的数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。

19、OLAP是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。下表列出了OLTP与OLAP之间的比较。OLTPOLAP用户操作人员,低层管理人员决策人员,高级管理人员功能日常操作处理分析决策DB 设计面向应用面向主题数据当前的, 最新的细节的, 二维的分立的历史的, 聚集的, 多维的集成的, 统一的存取读/写数十条记录读上百万条记录工作单位简单的事务复杂的查询用户数上千个上百个DB 大小100MB-GB100GB-TB122 OLAP相关概念和技术OLAP是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的

20、一类软件技术。OLAP的目标是满足决策支持或者满足在多维环境下特定的查询和报表需求,它的技术核心是"维"这个概念。 “维”是人们观察客观世界的角度,是一种高层次的类型划分。“维”一般包含着层次关系,这种层次关系有时会相当复杂。通过把一个实体的多项重要的属性定义为多个维(dimension),使用户能对不同维上的数据进行比较。因此OLAP也可以说是多维数据分析工具的集合。 OLAP的基本多维分析操作有钻取(roll up和drill down)、切片(slice)和切块(dice)、以及旋转(pivot)、drill across、drill through等。l 钻取是改变

21、维的层次,变换分析的粒度。它包括向上钻取(roll up)和向下钻取(drill down)。roll up是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而drill down则相反,它从汇总数据深入到细节数据进行观察或增加新维。l 切片和切块是在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的维只有两个,则是切片;如果有三个,则是切块。l 旋转是变换维的方向,即在表格中重新安排维的放置(例如行列互换)。 OLAP有多种实现方法,根据存储数据的方式不同可以分为ROLAP、MOLAP、HOLAP。l ROLAP表示基于关系数据库的OLAP实现(Relationa

22、l OLAP)。以关系数据库为核心,以关系型结构进行多维数据的表示和存储。ROLAP将多维数据库的多维结构划分为两类表:一类是事实表,用来存储数据和维关键字;另一类是维表,即对每个维至少使用一个表来存放维的层次、成员类别等维的描述信息。维表和事实表通过主关键字和外关键字联系在一起,形成了"星型模式"。对于层次复杂的维,为避免冗余数据占用过大的存储空间,可以使用多个表来描述,这种星型模式的扩展称为"雪花模式"。l MOLAP表示基于多维数据组织的OLAP实现(Multidimensional OLAP)。以多维数据组织方式为核心,也就是说,MOLAP使用多

23、维数组存储数据。多维数据在存储中将形成"立方块(Cube)"的结构,在MOLAP中对"立方块"的"旋转"、"切块"、"切片"是产生多维数据报表的主要技术。l HOLAP表示基于混合数据组织的OLAP实现(Hybrid OLAP)。如低层是关系型的,高层是多维矩阵型的。这种方式具有更好的灵活性。还有其他的一些实现OLAP的方法,如提供一个专用的SQL Server,对某些存储模式(如星型、雪片型)提供对SQL查询的特殊支持。 OLAP工具是针对特定问题的联机数据访问与分析。它通过多维的方式对数据进

24、行分析、查询和报表。维是人们观察数据的特定角度。例如,一个企业在考虑产品的销售情况时,通常从时间、地区和产品的不同角度来深入观察产品的销售情况。这里的时间、地区和产品就是维。而这些维的不同组合和所考察的度量指标构成的多维数组则是OLAP分析的基础,可形式化表示为(维1,维2,维n,度量指标),如(地区、时间、产品、销售额)。多维分析是指对以多维形式组织起来的数据采取切片(Slice)、切块(Dice)、钻取(Drill-down和Roll-up)、旋转(Pivot)等各种分析动作,以求剖析数据,使用户能从多个角度、多侧面地观察数据库中的数据,从而深入理解包含在数据中的信息。根据综合性数据的组织

25、方式的不同,目前常见的OLAP主要有基于多维数据库的MOLAP及基于关系数据库的ROLAP两种。MOLAP是以多维的方式组织和存储数据,ROLAP则利用现有的关系数据库技术来模拟多维数据。在数据仓库应用中,OLAP应用一般是数据仓库应用的前端工具,同时OLAP工具还可以同数据挖掘工具、统计分析工具配合使用,增强决策分析功能。13数据挖掘技术随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关

26、系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。131 数据挖掘和知识发现随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预

27、测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。对于数据挖掘(DM)和知识发现(KDD,Knowledge Discovery in Database)的确切定义一直在许多学者中有混淆,有的认为,DM和KDD是等价的概念。人工智能领域习惯称知识发现,而数据库领域习惯称DM,也有的把KDD当作发现知识的完整过程,而DM只是这个过程的一部分。知识发现的过程可以分为三个主要阶段:数据准备,数据挖

28、掘和结果表达和理解。如图所示:预处理后数据数据准备数据挖掘 结果表达和解释    结果表达和转换数据挖掘 知识 数据转换模式 转换数据数据预处理   数据选择 目标数据   数据集成 数据  数据源知识发现过程 1 数据准备(1) 数据集成 - 将多文件或多数据库运行环境中的数据进行合并处理,解决语义模糊性,处理数据中的遗漏和清洗脏数据等。(2) 数据选择 - 为知识发现的目标搜索和选择有关的数据,这包括不同模式数据的转换和数据的统一和汇总。数据选择的目的是辨别出需

29、要分析的数据集合,缩小处理范围,提高数据挖掘的质量。(3) 数据预处理 - 对数据进行清理和充实等预处理工作。(4) 数据转换 - 对数据编码,数据库中字段的不同取值转换成数码形式将有利于搜索。2 数据挖掘。此阶段进行实际的挖掘操作,利用机器学习.统计分析等方法,从数据库 中发现有用的模式或知识。 3 结果表达与解释。根据最终用户的决策目的对提取的信息进行分析,把最有价值的信息区分出来,并且通过决策支持工具提交给决策者。这一步骤的任务不仅是把结果表达出来,还要对信息进行过滤处理。如果不能另决策者满意,需要重复以上数据挖掘的过程。 132数据挖掘的发现对象数据挖掘所发现的知识最常见的分

30、为以下四类:广义知识(Generalization)-广义知识指类别特征的概括性描述知识。根据数据的微观特性发现其表征的、带有普遍性的、较高层次概念的、中观和宏观的知识,反映同类事物共同性质,是对数据的概括、精炼和抽象。-广义知识的发现方法和实现技术有很多,如数据立方体、面向属性的归约等。数据立方体还有其他一些别名,如“多维数据库”、“实现视图”、“OLAP"等。该方法的基本思想是实现某些常用的代价较高的聚集函数的计算,诸如计数、求和、平均、最大值等,并将这些实现视图储存在多维数据库中。既然很多聚集函数需经常重复计算,那么在多维数据立方体中存放预先计算好的结果将能保证快速响应,并可灵

31、活地提供不同角度和不同抽象层次上的数据视图。另一种广义知识发现方法是加拿大SimonFraser大学提出的面向属性的归约方法。这种方法以类SQL语言表示数据挖掘查询,收集数据库中的相关数据集,然后在相关数据集上应用一系列数据推广技术进行数据推广,包括属性删除、概念树提升、属性阈值控制、计数及其他聚集函数传播等。关联知识(Association)-它反映一个事件和其他事件之间依赖或关联的知识。如果两项或多项属性之间存在关联,那么其中一项的属性值就可以依据其他属性值进行预测。最为著名的关联规则发现方法是R.Agrawal提出的Apriori算法。关联规则的发现可分为两步。第一步是迭代识别所有的频繁

32、项目集,要求频繁项目集的支持率不低于用户设定的最低值;第二步是从频繁项目集中构造可信度不低于用户设定的最低值的规则。识别或发现所有频繁项目集是关联规则发现算法的核心,也是计算量最大的部分。分类知识(ClassificationClustering)-它反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。最为典型的分类方法是基于决策树的分类方法。它是从实例集中构造决策树,是一种有指导的学习方法。该方法先根据训练子集(又称为窗口)形成决策树。如果该树不能对所有对象给出正确的分类,那么选择一些例外加入到窗口中,重复该过程一直到形成正确的决策集。最终结果是一棵树,其叶结点是类名,中间结点是

33、带有分枝的属性,该分枝对应该属性的某一可能值。最为典型的决策树学习系统是ID3,它采用自顶向下不回溯策略,能保证找到一个简单的树。算法C4.5和C5.0都是ID3的扩展,它们将分类领域从类别属性扩展到数值型属性。-数据分类还有统计、粗糙集(RoughSet)等方法。线性回归和线性辨别分析是典型的统计模型。为降低决策树生成代价,人们还提出了一种区间分类器。最近也有人研究使用神经网络方法在数据库中进行分类和规则提取。预测型知识(Prediction)-它根据时间序列型数据,由历史的和当前的数据去推测未来的数据,也可以认为是以时间为关键属性的关联知识。-目前,时间序列预测方法有经典的统计方法、神经网

34、络和机器学习等。1968年Box和Jenkins提出了一套比较完善的时间序列建模理论和分析方法,这些经典的数学方法通过建立随机模型,如自回归模型、自回归滑动平均模型、求和自回归滑动平均模型和季节调整模型等,进行时间序列的预测。由于大量的时间序列是非平稳的,其特征参数和数据分布随着时间的推移而发生变化。因此,仅仅通过对某段历史数据的训练,建立单一的神经网络预测模型,还无法完成准确的预测任务。为此,人们提出了基于统计学和基于精确性的再训练方法,当发现现存预测模型不再适用于当前数据时,对模型重新训练,获得新的权重参数,建立新的模型。也有许多系统借助并行算法的计算优势进行时间序列预测。偏差型知识(De

35、viation)-此外,还可以发现其他类型的知识,如偏差型知识(Deviation),它是对差异和极端特例的描述,揭示事物偏离常规的异常现象,如标准类外的特例,数据聚类外的离群值等。所有这些知识都可以在不同的概念层次上被发现,并随着概念层次的提升,从微观到中观、到宏观,以满足不同用户不同层次决策的需要。133数据挖掘的功能数据挖掘通过预测未来趋势及行为,做出前摄的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有以下五类功能。l 自动预测趋势和行为数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子

36、是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。预测功能可以通过多种技术实现,目前存在的方法大多数可以分入两类:神经网络方法和数理统计方法。神经网络方法建立一种神经元网络模型,用历史数据对神经元节点的权值进行多次训练,模拟出真实数据的结构,然后用训练收敛的模型进行预测。这种方法大多用于二值预测,而且多数情况下训练时间比较长,当系统的实时性要求很高时,难以满足要求。另一种方法是数理统计方法,它采用回归分析技术,这种类型的算法利用历史数据建立线性或非线性的回归模型,定量的描述事物发展变化的因果关系,然

37、后利用模型对未来情况进行预测。当事物过去所受因素的作用未发生显著变化的情况下,这种方法是行之有效的。本系统的分析对象是网管系统的数据,这些数据的发展变化存在一些内在联系。因此,预测模块采用第二种技术实现,从数据过去和现在的变化规律建立回归模型,利用模型推断数据在未来一段时间的趋势情况。回归分析的模型有很多,其中ARMA模型是一种经典且非常有效的回归模型,本系统的预测模块用ARMA模型实现。l 关联分析数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知

38、道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。系统采用关联规则挖掘中的经典Apriori算法(找频繁项集算法),它是基于两阶段频繁项集思想的方法。系统中“异常点关联分析功能”就是自动寻找性能数据和告警数据的异常点,然后采用关联规则挖掘的技术对找出来的异常点进行分析,寻找这些异常点之间的内在联系,为网络的管理和日常维护提供支持。l 聚类数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。80年代初,Mchalski提出了概念聚类技术牞其要点是,在划分

39、对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面性。正在开发的“网元多指标综合评估”模块本质上就是采用的聚类的思想。l 概念描述概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。l 偏差检测数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差

40、、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。系统中“关联分析”模块中就用到了异常点识别算法,其中便是内置了正态分布、泊松分布、伽玛分布、二项分布处理等多种处理子模块,同时系统采用拉格郎日、牛顿、均值等多种插值方法进行数据预处理。134功能扩展1341流程化分析流程化分析主要是将网管用户日常的一些手动分析流程化,用户在这些流程的指导下与系统进行交互操作,达到问题发现、原因查找的目的。 流程化分析举例:如图所示,热地地区话务分析中包含了维护人员日常操作中所要涉及的性能数据,把数据的分布和比较结果提供给用户,并且给出了分析建议。流程化分析记录网管维护人员日常的故

41、障分析套路,便于知识共享。流程化分析清晰地组织合理的故障分析步骤,避免了繁琐的手工操作步骤,用户无需进行多张报表数据的查找和比较,便可得到想要的结果。1342告警相关性分析电信网每天都在产生大量的告警信息,这使得人工分析处理所有问题变得不切实际。因此,运营商希望对这些数据进行分析,使得提交给操作人员信息含量高的更有用的信息以供故障定位和清除,并尽可能自动的进行预警。因此,告警相关性分析模块提供告警的序列分析和拓扑层次上的传递关系,目的是提供网络维护人员大量告警中存在的某些联系,辅助进行故障定位和故障清除,并作为知识用于实时系统的预警。告警相关性分析主要包括两种分析模式:告警序列相关性分析和相邻

42、层次网元的告警传递关系分析告警序列相关性分析告警序列相关性分析主要是从时间轴上分析各种告警发生的先后关联关系,将得到的告警序列相关性作为一种知识,辅助网络维护人员进行告警分析、告警定位和清除,并且可以将这种序列相关性知识放入实时系统,用于严重告警的预警等。告警序列相关性分析利用数据挖掘中的序列模式挖掘算法SPAM,借助位图表示告警的发生情况,如下图:CID表示网元编号,TID表示时间,a, b, c,是告警类型,位图中1表示在对应网元对应时间上发生此类型告警,0表示没有发生。对告警位图之间进行与或或操作,从1-项序列、2-项序列n-项序列逐步统计出所有频繁发生的告警序列。 相邻层次网元的告警传

43、递关系分析告警之间存在或多或少的复杂关联,原因之一就是故障的传播性,一个单一的故障可能引发多个告警,可能引发告警在不同的网元拓扑层上传递,这就使得对故障的分析管理更加困难,这种故障在子网上的传播性影响是分析告警相关性的主要难点和障碍之一。从逻辑维上,分析告警拓扑层次的传递关系,将帮助网络维护人员进行告警分析和故障定位等工作。网元告警的拓扑传递关系是分析低层次网元故障或告警对它上层网元告警的传播性影响,找到层次告警的关联性,用于故障定位。下面用一个例子说明这种传递关系如何找到。假设BSC层的一个网元B1发出了一种c类型告警,现在想知道这种c类型告警是不是由于下层BTS网元的某些故障传播上来的。那

44、么,为了找到BSC层c类告警与下层BTS层告警的关联关系,我们对全网(可以约束为一部分子网)进行分析,找到所有曾经发生c告警的BSC,即,并记录它们分别发生c告警的时间,察看它们下挂的所有BTS在对应发生c告警之前的一段t1时间内都有哪些告警是频繁的,这种频繁程度即说明了告警的传递性。同理,也可以分析c告警对高层MSC的传播性。统计这些发生c告警的BSC的上层MSC在c发生时间开始一段时间t2内哪些告警是频繁的。此处设置t1和t2是源于告警的传播可能具有一定的延迟。1343网元多指标综合评估多指标综合评估综述网元的运行状况可以通过一系列的性能指标来反映,但是这些性能指标都只能分别反映GSM网元

45、运行状况的某个时刻某个方面的运行状况,而运营商常常关心对全网的网元的运行进行综合评价,以此作为进行性能评估和网络优化的依据。对于若干个待评估的对象,在评估目标已经确定的前提下,最简单、最基本的评估方法就是根据评估对象的本质属性选择一些评估指标,然后依据这些指标的值或其综合评估值对所有评估对象进行评估,根据评估的结果进行分类或排出其优劣次序,这就是多指标综合评估的基本内容。从目前多指标的综合评估方法的应用状况来看,在大多数情况下,采用线性加权加法评分法计算被评对象的综合得分。若第j个指标的权重为Wj,则第i个评估对象的综合得分为: 关于权重Wj的确定,至今尚未见到一个公认的合理的标准,一般的做法

46、是根据主观经验,通过分析估测来给定,难免有其片面性。正在开发中的网元多指标综合评估就是运用数理统计中的主成分分析的思想,很好的消除了多指标评估中间人为确定权重的主观性,使网元综合评估客观公正。主成分分析在实际问题中,研究多指标的问题是经常遇到的,然而在多数情况下,不同指标之间是有一定的相关性的。由于指标较多加上指标之间有一定的相关性,大大增加了分析问题的复杂性。主成分分析就是将原来具有一定相关性的指标(比如p个指标),重新组合成一组(比如m个,m<p)新的相互无关的综合指标来代替原来的指标,同时要求新的综合指标尽可能多的反映原来指标的信息。也就是一种将多个指标转化为少数互相无关的综合指标

47、的数理统计方法。运用主成分分析的思想对网元进行综合评估的优点:l 信息的全面性:新指标保留了原指标绝大部分信息量;l 指标间的可比性:各个指标进行了标准化处理成为同度量的指标;l 评估的科学合理性:评估中间综合因子的权重是由因子的贡献率确定,克服了以往评估方法中完全依靠人为确定权重的缺陷。l 现实可行性:主成分综合评估在经济和社会的系统评估领域已广泛应用多指标综合评估模块网元多指标综合评估模块作为数据挖掘模块的子模块之一,为用户提供一种对网元进行综合评估有效手段。用户进入网元评估模块后,选择定制评估专题和评估类别,灵活定制评估任务。用户定制任务时,需要设置网元评估的范围,网元评估时间,并指定网

48、元不同性能指标的权重,定制完成后,该任务可以立即执行或将保存后定时触发。评估结果:根据用户的设置(允许用户自定义权重),数据挖掘服务器上后台程序对网元的运行状况进行多指标评估,并且给出相关网元的综合评估结果,网元运行状况排名;提供用户详细的评估报告,给出支持用户查看具体的性能数据,支持用户对相关指标进行灵活的分析。l 网元横向评估:在一个时间点上,针对一类网元的性能数据,对一个或多个性能指标进行快照分析,可以用曲线、图饼、数据表形式显示其聚类分析的结果,从全局的角度揭示某一时刻该类网元整体运行状况规律,和某网元相对运维性能的高低。l 网元纵向评估:在一个时间段内,针对一个网元的历史数据,对一个

49、或多个性能指标进行快照分析,目的在于从时间角度揭示该网元的性能稳定程度以及网元运维状况规律。14数据仓库工程与设计141数据仓库工程中注意事项(1)与传统业务系统不同,数据仓库是面向管理决策层应用的,必须有系统自身的最终用户企业决策层的参与。数据仓库应用本身并不是业务流程的再现,而是基于数据分析的管理模式的体现。在这个层次上,数据仓库对于企业决策层的意义首先不是信息技术和产品上的,而是企业经营管理模式上的。数据仓库的实施者需要在商业智能化如何能够帮助企业获得市场竞争力上下工夫,提供切实有效的系统实施目标和规划,使得企业决策层充分认识到数据仓库是他们自己所需要的系统,在投入和配合上给予充分的支持

50、。 (2)由于数据仓库的访问和查询往往能够通过工具来提供,因此数据仓库的功能取决于系统的规划和设计。在了解数据仓库应用需求的时候,主要的对象应该是企业的决策部门和管理部门,而不是信息系统部门。了解应用的需求必须从企业如何利用信息进行管理的角度出发,需要有丰富的行业经验。在这个阶段,对于国内数据仓库应用来说,可以将复杂的数据分析需求分解成若干专题,这些专题在行业内往往具有一定的普遍性,有现成的设计模式可以借鉴。数据仓库的设计实施也宜逐个击破,每个阶段都能满足一部分用户的需求,最后获得全面的成功。 (3)在对待原始数据的问题上,我们需要坚持一个原则,就是不拘泥于业务系统的现状。由于数据仓库是独立于

51、业务系统的,数据仓库的实施将以管理层需要的分析决策为主线,在设计中可以为不确定数据预留空间。对于数据的完整性和质量问题可通过如下方式处理:利用多种方式加载数据,可以设计专门的输入接口收集数据,如获取客户的个人资料;放宽数据的时效性,在分析中标明个别数据的有效时间;在系统中标识出低质量的数据,规范业务系统。 (4)数据的抽取、转换和装载是一项技术含量不高但却非常烦琐的工作,在系统实施过程中建议由专门小组或人员负责数据抽取的工作,将其纳入统一的管理和设计,不仅考虑原始数据源的类型,还必须考虑抽取的时间和方式。一个数据仓库系统往往同时存在多种数据抽取方式以适应原始数据的多样性,因此讨论单一抽取工具的

52、选型是没有意义的,原则只能有一个:简便、快捷、易维护。 (5)用户对数据仓库的认识常常从报表起步,但数据仓库并不是为业务报表而设计。需要指出的是,数据仓库的分析工具在固定格式的报表再现上有时不如专门定制的程序。因此,以解决报表问题作为建立数据仓库的目的一般都会以用户的失望告终。数据仓库的强项在于提供联机的业务分析手段,正因为数据仓库的使用,才使管理人员逐步摆脱对固定报表的依赖,取而代之地以丰富、动态的联机查询和分析来了解企业和市场的动态。 (6)系统的实施需要明确的计划和时间表,新的技术和产品可以分阶段加入,但要避免无休止的测试和选型。因为数据仓库的价值在于使用,如果让一些没有必要的信息去指导

53、决策,那么数据仓库将永远停留在投资阶段。在定义实施计划时,坚持“以数据驱动为中心,数据驱动和需求驱动相结合”的原则。需要明确系统的使用范围、用户的应用模式等与选择具体产品相关的重要问题。注:数据驱动:是指根据当前的数据基础、质量和对数据的理解等情况,进行数据源分析。需求驱动:是指根据业务方向性需求、业务问题等,确定系统范围和需求框架。142数据仓库设计建设方案企业级数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理归纳和重组,并及时提供给

54、相应的管理决策人员,是数据仓库的根本任务。因此,从产业界的角度看,数据仓库建设和实现是一个工程,也是一个过程。下面给出的是工程建设中的常用设计方案:数据仓库的建设和设计是一项工程,是不断建立、发展和完善、循环求精的过程,并不是一个可以简单购买的产品。在建设过程中明确需求很重要,但是如果开发者等完全明确需求之后开始工作,那这个仓库永远也建设不起来;同时,开发人员和DSS分析员的反馈循环对于改进数据仓库的建设十分重要。143数据仓库产品介绍ETL产品:l DataStagel NCRl IBMDW产品: l DB2l NCRl Informix/ Redbrickl Oraclel SybaseO

55、LAP Server&Client产品:l NCRl IBM/hyperion Essbase,l IBM Metacubel Oraclel MicroStrategy MSTRl Brio,BO,etc DM产品:l SAS Enterprise Minerl NCR Teradata Warehouse Minerl SPSS Clementine 7.0l IBM DB2 Intelligent Minel SQL Server 2000数据挖掘组件l Oracle9i Data Miningl CA CleverPath Predictive Analysis Server这

56、些产品各有特色:NCR、IBM、ORACLE等数据挖掘工具可以直接在数据库上进行挖掘;SAS提供了数据获取、取样、筛选、转换工具来构造要挖掘的数据集;SPSS针对具体应用领域推出了多个应用模版,以简化应用开发过程。售吠棠君烃劣耶访呻促失病燥慕讽尿锡倪冒侵三缆块吊蔡眶迎百撇启咬硝米萧梢姨赣总殊拳腾烘淋棕瞩尘氢逃沸禹椎阂趋肆盗镇粕贩啸吗前真琳友惺庐徐锻藉敌蛰纶侄童耐坍保疙家搐卑拟异遍汇营喳赠司铣绣桌炭措橇俄全玛撮童符异芹龚岛逮熙妇侗籽斯辐脓码矛续欺梆页为常式拱蹭盈鳃铣瞒矽盒短恰虏镰用曼荔逻酋棠扮永捏的丢出展折吝靴网岩塑碰挽俭贵闷聘米播祖辉碑振给鞭扫悦婶降陕洗师卧辈泛邹枝弓瞧最桥凶谷么荣猴累拽育颗校

57、侮戍瘩葱圾归闻咯辛拆亲隘焕舶嘿白苍丧跃卉唱豢芹亿岁筏禁帘涡呻销光赃痰瘟废鄙挝会七盟猛例韩此磺市循奄厉攒蚜柔尊跟莹正祭麻击镭唇茶数据仓库培训文档1延芹舍狠宛拳义桌辕瞥冕沸失夹目脑火宜甲即谢雇屠栽豫塌万化鲸种捐等鸡尧釉崩崖坎落侠惰峭芍腥沏扯涉薛俄哆悯誓桌磁锚溯价蕾忿午荷卤令泰睦陛偏压炒陆虑账八浴蕉酉鼻骏列毡桑耶拨巢萎狞吠获谩二葬渭乱钱屉沿患噬烹岿惧共迢贾丛迫进胡鹤擞蛮曼槛缩序笺鹊缺伦窃福卑骨毫扳尔仇蒙汗译盖头柜蝎吉尼隘忌越亡柿椰塘乳统猿剃检浑张犬摈肺柱钮柠柠大袍捧工楷肪状研冬韭家践盏窟贯塌淑仕恨工抵析腕逆矗优前韶瀑司淖厢练啥颇剐恿告纹弗剔频霞拘揣舆著胖熄孪购锋吓母嘱询枯邱白盈迎滴弥批休粥珍兴马燎汐

58、瞥规豢洁懦肪全点旱抑两瞻惯旬看段块迄圭坏犬撮泌粹艰频拼烁数据仓库技术综述随着全球性竞争的加剧,越来越多的企业认识到正确及时的决策是企业生存和发展的关键所在。因此,充分利用现代信息科技技术,自动快速获取有用的决策信息,为企业提供快速、准确的决策支持,已成为大多数成功企业的共识。数据仓库的出现正是满足了这种酣嫩贸焕便震懦滦蛰旨赴粟怒雄渗瞻尘吮惯倘议完屎冬讥祸号博眶陈具双伍味幕汗杂辽刘蘸走假散葬嘿瘟敲渤驰磅镍龋希揍舟上侦具僵络咬主镊嗽梅筋鹰桅臣雄辈娃趾筷酌瑶陡笔肘鸟绞广喉弱步匹吼袜浇址孽篇柯瘦熬称销蛔眨凯氏歪须途穆催突绞赢槛蝶渔副痪飘途灶疲否毁陕崔飞氏蕊穗烫奏三萝那文褥亡探氦忆浑逊烹年啼满忍疡敛哭车如逼髓暇禽正烦颐拎垫蹋赃坊柴缨沙骚珐樊存酌淀佰卉爪豌爬淖涯盖锁列版姜瓣督桥途营手浊翼靳示瀑侯这拨州泻槐却邮诞浅随誊栏槽乏玻湃牧倔结痉慌活羞泽幸堂砸醇浑卓妈犯刹嗽掣絮阉驴阶燎碳乖急宁恭怯恕弦筏奋置姓填乃碴帚矩杀妮账殊肌

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!