数据仓库与数据挖掘ppt课件

上传人:风*** 文档编号:182434771 上传时间:2023-01-23 格式:PPT 页数:45 大小:201.50KB
收藏 版权申诉 举报 下载
数据仓库与数据挖掘ppt课件_第1页
第1页 / 共45页
数据仓库与数据挖掘ppt课件_第2页
第2页 / 共45页
数据仓库与数据挖掘ppt课件_第3页
第3页 / 共45页
资源描述:

《数据仓库与数据挖掘ppt课件》由会员分享,可在线阅读,更多相关《数据仓库与数据挖掘ppt课件(45页珍藏版)》请在装配图网上搜索。

1、23.4 OALP的多维数据分析(下)的多维数据分析(下)3.4.3 广义广义OLAP功能功能3.4.4 数据立方体数据立方体3.4.5 多维数据分析的多维数据分析的MDX语言及其应用语言及其应用3 1 1、基本代理操作、基本代理操作 当系统处于某种特殊状态时当系统处于某种特殊状态时“代理代理”提醒分析员。提醒分析员。(1 1)示警报告)示警报告 定义一些条件,一但条件满足,系统会提醒分析员去做定义一些条件,一但条件满足,系统会提醒分析员去做分析。如每日报告完成或月定货完成等通知分析员作分析。分析。如每日报告完成或月定货完成等通知分析员作分析。(2 2)时间报告)时间报告 按日历和时钟提醒分析

2、员。按日历和时钟提醒分析员。(3 3)异常报告)异常报告 当超出边界条件时提醒分析员。如销售情况已超出预定当超出边界条件时提醒分析员。如销售情况已超出预定义阈值的上限或下限时提醒分析员。义阈值的上限或下限时提醒分析员。4 2数据分析模型数据分析模型(1)绝对模型)绝对模型 通过比较历史数据值或行为来描述过通过比较历史数据值或行为来描述过去发生的事实。去发生的事实。绝对模型只能对历史数据进行比较,绝对模型只能对历史数据进行比较,并且利用回归分析等一些分析方法得出并且利用回归分析等一些分析方法得出趋势信息。趋势信息。5(2)解释模型)解释模型n利用系统已有的多层次的综合路径层层利用系统已有的多层次

3、的综合路径层层细化,找出事实发生的原因。细化,找出事实发生的原因。n假设今年销售量下降,那么解释模型应假设今年销售量下降,那么解释模型应当能找出原因,即下滑与时间、地区、当能找出原因,即下滑与时间、地区、商品及销售渠道四者中的何种因素有关。商品及销售渠道四者中的何种因素有关。6(3)思考模型)思考模型n说明在一维或多维上引入一组具体变量说明在一维或多维上引入一组具体变量或参数后将会发生什么。或参数后将会发生什么。n例如该公司决策者为了了解某商品的销例如该公司决策者为了了解某商品的销售量是否与顾客的年龄有关,引入了行售量是否与顾客的年龄有关,引入了行变量年龄,即在当前的多维视图上增变量年龄,即在

4、当前的多维视图上增加了顾客的年龄维。加了顾客的年龄维。7(4)公式模型)公式模型n该模型表示在多个维上,需要引入哪些该模型表示在多个维上,需要引入哪些变量或参数,以及引入后所产生的结果。变量或参数,以及引入后所产生的结果。n公式模型自动完成上述变量引入工作,公式模型自动完成上述变量引入工作,从而最终找出与销量有关的全部因素,从而最终找出与销量有关的全部因素,并给出了引入后的结果。并给出了引入后的结果。83.商业分析模型商业分析模型(1)分销渠道的分析模型)分销渠道的分析模型(2)客户利润贡献度模型)客户利润贡献度模型(3)客户关系(信用)优化模型)客户关系(信用)优化模型(4)风险评估模型)风

5、险评估模型9(1)分销渠道的分析模型)分销渠道的分析模型n通过客户、渠道、产品或服务三者之间通过客户、渠道、产品或服务三者之间的关系,了解客户的购买行为、客户和的关系,了解客户的购买行为、客户和渠道对业务收入的贡献、哪些客户比较渠道对业务收入的贡献、哪些客户比较喜好由什么渠道在何时和银行打交道。喜好由什么渠道在何时和银行打交道。n为此,银行需要建立客户购买倾向模型为此,银行需要建立客户购买倾向模型和渠道喜好模型等。和渠道喜好模型等。10(2)客户利润贡献度模型)客户利润贡献度模型n通过该模型能了解每一位客户对银行的通过该模型能了解每一位客户对银行的总利润贡献度。总利润贡献度。n知道哪些利润高的

6、客户需要留住,采用知道哪些利润高的客户需要留住,采用什么方法留住客户,交叉销售改善客户什么方法留住客户,交叉销售改善客户的利润贡献度,哪些客户应该争取,完的利润贡献度,哪些客户应该争取,完成个性化服务。成个性化服务。11(3)客户关系(信用)优化模型)客户关系(信用)优化模型n银行对客户的每一笔交易中,知道客户需要什银行对客户的每一笔交易中,知道客户需要什么产品或服务,例如,定期存款是希望退休养么产品或服务,例如,定期存款是希望退休养老使用,申请信用卡需要现金消费,询问放贷老使用,申请信用卡需要现金消费,询问放贷利息需要住房贷款等。利息需要住房贷款等。n通过模型计算,主动地对客户沟通并进行交叉

7、通过模型计算,主动地对客户沟通并进行交叉销售,达到留住客户和增加利润的目标。销售,达到留住客户和增加利润的目标。12(4)风险评估模型)风险评估模型 模拟风险和利润间的关系,建立风险模拟风险和利润间的关系,建立风险评估的数学模型:评估的数学模型:在满足高利润、低风险客户需求的前在满足高利润、低风险客户需求的前提下,达到银行收益的极大化。提下,达到银行收益的极大化。133.4.4 数据立方体数据立方体1概述概述 1996年,年,Jim Gray等首次提出了数据立方等首次提出了数据立方体体(Data Cube)的概念。的概念。数据立方体就是数据仓库结构图(图数据立方体就是数据仓库结构图(图2.1)

8、中的综合数据层(轻度和高度)。基于数据中的综合数据层(轻度和高度)。基于数据立方体的生成方法一直是立方体的生成方法一直是OLAP和数据仓库领和数据仓库领域研究者所关注的热点问题。域研究者所关注的热点问题。14对于多维数据分析而言,本质上是沿着不同的对于多维数据分析而言,本质上是沿着不同的维度进行数据获取的过程。维度进行数据获取的过程。在数据立方体中,不同维度组合构成了不同的在数据立方体中,不同维度组合构成了不同的子立方体。子立方体。不同维值的组合及其对应的度量值构成了不同不同维值的组合及其对应的度量值构成了不同的查询和分析。的查询和分析。数据立方体的构建和维护等计算方法成为了多数据立方体的构建

9、和维护等计算方法成为了多维数据分析研究的关键问题。维数据分析研究的关键问题。15nOLAP和数据仓库通常和数据仓库通常预先计算好预先计算好不同细不同细节层次和不同维属性集合上的节层次和不同维属性集合上的聚集聚集,并,并把聚集的结果存储到物理磁盘上把聚集的结果存储到物理磁盘上(称为称为物物化化)。n把所有可能的聚集把所有可能的聚集(即全聚集即全聚集)都计算出都计算出来,可以得到最快的系统查询响应时间,来,可以得到最快的系统查询响应时间,16数据立方体是在所有可能组合的维上进行分组数据立方体是在所有可能组合的维上进行分组聚集运聚集运算算(group by 操作操作)的总和的总和。聚集函数聚集函数有

10、:有:sum()、count()、average()等。等。数据立方体中的每一个元组(立方体的度量属性)被数据立方体中的每一个元组(立方体的度量属性)被称为该立方体的上个格(称为该立方体的上个格(cell),每个格在),每个格在n 个维个维属性上有相应的值。属性上有相应的值。在未参与在未参与group by 操作的维属性上操作的维属性上具有具有All 值(用值(用表示表示),而在参与),而在参与group by 操作的维属性具有非操作的维属性具有非All 值。值。17例如,对于一个具有三个维属性例如,对于一个具有三个维属性 A、B、C 和和一个度量属性一个度量属性 M 的的数据集数据集R(A,

11、B,C,M).其对应的数据立方体是在维属性集其对应的数据立方体是在维属性集,A,B,C,AB,AC,BC,ABC上分别对度量属性进行聚集操作后的并集。上分别对度量属性进行聚集操作后的并集。其中其中:表示进行聚集运算表示进行聚集运算*,*,*,聚集函数,聚集函数(M);A表示进行聚集运算表示进行聚集运算A,*,*,聚集函数,聚集函数(M)等。等。18这些聚集运算与操作结果是数据仓库中的这些聚集运算与操作结果是数据仓库中的一种高度综合级数据一种高度综合级数据.实质上是进行了数据的浓缩(压缩),也实质上是进行了数据的浓缩(压缩),也可称为泛化。最终所获得的这些数据立可称为泛化。最终所获得的这些数据立

12、方体可用于决策支持、知识发现,或其方体可用于决策支持、知识发现,或其它许多应用。它许多应用。19例如,对如表例如,对如表3.12所示的超市的基本数据集所示的超市的基本数据集POS(product,type,counter,price),前三个属),前三个属性分别代表(产品名、类型、柜台)为维属性性分别代表(产品名、类型、柜台)为维属性.现在对度量属性价格现在对度量属性价格 price 进行取平均值(进行取平均值(average)的聚集运算,的聚集运算,通过通过Cube 操作可以得到一个具有三个维属性和一个操作可以得到一个具有三个维属性和一个度量属性的数据立方体度量属性的数据立方体Dpos,如表

13、,如表3.13所示。所示。20表3.12 基本数据集POSproduct type counter priceKONKATV SET 011000TCLTV SET 011500NOKIAPHONE 012000producttypecounterM(AVG(price)1500KONKA1000TCL 1500NOKIA 2000TV SET1250PHONE2000011500KONKATV SET1000TCLTV SET1500NOKIAPHONE2000TV SET011250PHONE012000KONKA011000TCL011500NOKIA012000KONKATV SET0

14、11000TCLTV SET011500NOKIAPHONE01200022全聚集的数据占据的空间是原始数据空间的全聚集的数据占据的空间是原始数据空间的数百倍,花费很长时间。数百倍,花费很长时间。故数据立方体构建故数据立方体构建部分物化部分物化:即按照一定:即按照一定的规则选择的规则选择数据立方体的一个子集数据立方体的一个子集进行预进行预先计算。这种选择是存储空间和响应时间先计算。这种选择是存储空间和响应时间的一种折衷。的一种折衷。23典型的压缩型数据立方体,包括典型的压缩型数据立方体,包括:冰山立方体、紧凑数据立方体、外壳冰山立方体、紧凑数据立方体、外壳片段立方体等。片段立方体等。随着流式数

15、据处理技术的发展,流立方体随着流式数据处理技术的发展,流立方体生成方法越来越受到领域研究者的关注。生成方法越来越受到领域研究者的关注。24(1)冰山立方体)冰山立方体在冰山立方体的生成计算中,仅聚集高于在冰山立方体的生成计算中,仅聚集高于(或低于)某个阈值的子立方体。(或低于)某个阈值的子立方体。数据立方体的空间多数数据立方体的空间多数,被低(或高)度量值被低(或高)度量值的数据单元所占据,而这些数据单元往往是的数据单元所占据,而这些数据单元往往是分析者很少关心的内容。这种方法的优点是分析者很少关心的内容。这种方法的优点是能够减少构建数据单元所占用的存储空间。能够减少构建数据单元所占用的存储空

16、间。例如,在例如,在表表3.12中,设定中,设定聚集聚集运算条件:运算条件:M(AVG(price)1250 1250,其,其冰山立方体为表冰山立方体为表3.14所示。所示。表表3.14 基本数据集基本数据集POS的的冰山立方体冰山立方体 producttypecounterM(AVG(price)KONKA1000TV SET1250KONKATV SET1000TV SET011250KONKA011000KONKATV SET01100026(2)紧凑数据立方体生成方法)紧凑数据立方体生成方法紧凑数据立方体生成方法的一个重要特点是能紧凑数据立方体生成方法的一个重要特点是能够保持数据立方体

17、的钻取操作的语义。够保持数据立方体的钻取操作的语义。这种紧凑数据立方体生成方法在压缩的方式和这种紧凑数据立方体生成方法在压缩的方式和表现形式上表现出有不同的特征,包括表现形式上表现出有不同的特征,包括:浓缩立方体浓缩立方体(Condensed cube)、商立方体、商立方体(Quotient cube)等,等,这些都是近年来出现的一系列新型的数据立方这些都是近年来出现的一系列新型的数据立方体的存储结构。体的存储结构。27浓缩立方体浓缩立方体浓缩立方体计算方法的基本原理是,在某些浓缩立方体计算方法的基本原理是,在某些属性或组合下的一个元组相对于其它元组属性或组合下的一个元组相对于其它元组具有唯一

18、性,则称为基本单一元组(具有唯一性,则称为基本单一元组(BST,Base Single Tuple)。当它的超集(增加属性组合)也是当它的超集(增加属性组合)也是BST,且,且都是取同一度量值,在聚集运算时,可以都是取同一度量值,在聚集运算时,可以把这些属性的度量值对应的元组压缩成一把这些属性的度量值对应的元组压缩成一条元组存储。条元组存储。28属性属性 product 的所有超集的所有超集 product,type,product,counter,product,type,counter 也是也是BST,且都具有相同值。,且都具有相同值。如如 KONKA,1000,KONKA,TV SET,

19、1000,KONKA,01,1000,KONKA,TV SET,01,1000,故可以将这些元组压缩存储为一条元组故可以将这些元组压缩存储为一条元组 KONKA,1000。同理,属性同理,属性 type中,其属性值为中,其属性值为 PHONE 的元组是的元组是BST,它和它的超集也可以压缩存储为一条元组它和它的超集也可以压缩存储为一条元组,PHONE,2000。经过这样的浓缩后,表经过这样的浓缩后,表3.13的的浓缩立方体为表的的浓缩立方体为表3.15。29表表3.15 基本数据集基本数据集POS的浓缩立方体的浓缩立方体producttypecounterM(AVG(price)1500KON

20、KA1000TCL 1500NOKIA 2000TV SET1250PHONE2000011500TV SET01125030n可以看出浓缩立方体是全聚集立方体的可以看出浓缩立方体是全聚集立方体的有效浓缩。有效浓缩。n由于在一般的应用中,当属性个数较多由于在一般的应用中,当属性个数较多时,时,BST是广泛存在的。一般来说,其是广泛存在的。一般来说,其压缩率可以达到压缩率可以达到30 7O。313.4.5 多维数据分析的多维数据分析的MDX语言语言 及其应用及其应用1MDX语言简介语言简介 MDX(Multi Dimensional eXpressions,多维表达式)是联机分析处理(多维表达式

21、)是联机分析处理(OLAP)和数)和数据仓库应用中最广泛使用的软件语言(维度据仓库应用中最广泛使用的软件语言(维度语言)。语言)。MDX语言可以查询和管理多维数据仓库,语言可以查询和管理多维数据仓库,MDX表达式可以用来创建新的计算成员。表达式可以用来创建新的计算成员。32MDX与与SQL的比较的比较相同相同:MDX与与SQL都包含都包含“选择对象选择对象”(select子子句)、句)、“数据源数据源”(from子句)以及子句)以及“指定条件指定条件”(where子句),子句),不同不同:MDX结合了多维数据集,指定结合了多维数据集,指定“维度维度”(On子句)和子句)和“创建表达式计算的新成

22、员创建表达式计算的新成员”(MEMBER子句)。子句)。MDX语法还包含功能强大的函数,以协助数据处理与语法还包含功能强大的函数,以协助数据处理与挖掘。挖掘。33具体说明具体说明(1)关键字)关键字SELECT后带需要检索内容的子句。后带需要检索内容的子句。(2)关键字)关键字ON和维度(坐标轴)的名称一起使用,和维度(坐标轴)的名称一起使用,以指定数据库维度显示位置。以指定数据库维度显示位置。(3)MDX用大括号用大括号 包含某个特定维度或者多个包含某个特定维度或者多个维度的一组元素。维度的一组元素。一个维度(度量维度或时间维度)的多个元素一个维度(度量维度或时间维度)的多个元素间用逗号(,

23、)隔开。元素名称用方括号间用逗号(,)隔开。元素名称用方括号 引用,引用,并且不同组成部分之间用点号()分隔。并且不同组成部分之间用点号()分隔。34(4)在一个)在一个MDX查询中,不同查询的维度(坐标轴)查询中,不同查询的维度(坐标轴)的数量可能不同。前三个坐标轴以的数量可能不同。前三个坐标轴以“columns”、“rows”及及“pages”命名,更多的坐标轴命名为:命名,更多的坐标轴命名为:chapters、section等。也可以统一用等。也可以统一用axis(0)、)、axis(l)、)、axis(2)等表示坐标轴。)等表示坐标轴。(5)MDX查询中查询中FROM子旬指明用于查询数

24、据的多子旬指明用于查询数据的多维数据集。维数据集。(6)WHERE子句指定在列或行(或者其他的坐标轴)子句指定在列或行(或者其他的坐标轴)上没有出现的多维数据集的成上没有出现的多维数据集的成员。员。352多维数据查询多维数据查询在多维数据集中用得最多的查询是对多维在多维数据集中用得最多的查询是对多维数据的切片查询,通过不同角度的切片数据的切片查询,通过不同角度的切片来发现问题。来发现问题。通过下钻操作一般用来查询问题的原因。通过下钻操作一般用来查询问题的原因。下面分别通过切片查询和向下钻取操作下面分别通过切片查询和向下钻取操作例子进行说明。例子进行说明。36例例1:切片查询:切片查询n在多维数

25、据集在多维数据集Sales中,顾客所在的中,顾客所在的MA州,对时间州,对时间2009年年Q1(1季度)和季度)和Q2(2季度)的销售额季度)的销售额Dollar Sales和销售和销售数量数量Unit Sales的情况,进行切片查询。的情况,进行切片查询。nMDX语言的切片查询语句:语言的切片查询语句:37nSELECT Measures.Dollar Sales,Measures.Unit Sales nOn columns,Time.Q1,2009,Time.Q2,2009 nOn rowsnFROM SalesnWHERE(Customer.MA)38切片查询结果切片查询结果Dolla

26、r SalesUnit SalesQ1,200996,949.13866Q2,2009 104,510.2 412539例例2:向下钻取操作:向下钻取操作n一种常用的查询是获得一个成员的子成一种常用的查询是获得一个成员的子成员。这么做的目的是执行一个向下钻取员。这么做的目的是执行一个向下钻取操作,即获得基于一个共同父成员的范操作,即获得基于一个共同父成员的范围内的成员。围内的成员。nMDX提供提供.Children函数来完成这个操函数来完成这个操作。作。40n下面将对多维数据集下面将对多维数据集Sales中,顾客所在的中,顾客所在的TX州,向下钻取查询:州,向下钻取查询:n工具产品工具产品 P

27、roduct.Tools成员和它的子成员和它的子成员(成员(Tool1、Tool5),以及),以及2009年年Q3(3季度)成员的子成员(季度)成员的子成员(7、8、9)三个月)三个月的销售数量的销售数量Measures.Unit Sales情况。情况。nMDX语言的向下钻取操作语句如下:语言的向下钻取操作语句如下:41nSELECT Time.Q3,2009.Children n on columns,Product.Tools,Product.Tools.Children nOn rowsnFROM SalesnWHERE(Customer.TX,Measures.Unit Sales)4

28、2Tools成员及其子成员报表的显示成员及其子成员报表的显示 July,2009aug,2009sep,2009Tools 176 266 205Tool1 32 121Tool2 78 85Tool3 57 56Tool4 48 67Tool5 39 6443MDX语言更多功能语言更多功能 nMDX语言中,允许的算术操作符有:加、减、语言中,允许的算术操作符有:加、减、乘乘*、除、除/、括号(、括号()。)。n允许的函数有:允许的函数有:Avg()平均值;()平均值;nAggregate()聚合函数定义的聚合值;()聚合函数定义的聚合值;nCount()值或元组的个数;()值或元组的个数;n

29、Sum()值的和;()值的和;nMax()最大值;()最大值;Median()集的中位值;()集的中位值;Min()()最小值;最小值;Stdev()值的样本标准差;()值的样本标准差;StdevP()()值的总体标准差;值的总体标准差;Var()值的样本方差;()值的样本方差;VarP()()值的总体方差值的总体方差等等。等等。44允许额外的数字计算函数有:允许额外的数字计算函数有:nAbs(num),),num的绝对值;的绝对值;nExp(N),),e的的N次幂次幂;nFactorial(N),),N的阶乘;的阶乘;nLn(nun),),Num的自然对数的自然对数等等。等等。MDX语言还具有更高级的功能,能帮助公司进语言还具有更高级的功能,能帮助公司进行:保险索赔分析、产品质量控制和顾客购行:保险索赔分析、产品质量控制和顾客购物偏好等更高层次的决策分析。物偏好等更高层次的决策分析。1515、1616、1919、2020、2121

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!