2023年数据仓库与数据挖掘讲课笔记

上传人:回**** 文档编号:166234258 上传时间:2022-10-31 格式:DOC 页数:7 大小:215.50KB
收藏 版权申诉 举报 下载
2023年数据仓库与数据挖掘讲课笔记_第1页
第1页 / 共7页
2023年数据仓库与数据挖掘讲课笔记_第2页
第2页 / 共7页
2023年数据仓库与数据挖掘讲课笔记_第3页
第3页 / 共7页
资源描述:

《2023年数据仓库与数据挖掘讲课笔记》由会员分享,可在线阅读,更多相关《2023年数据仓库与数据挖掘讲课笔记(7页珍藏版)》请在装配图网上搜索。

1、第二周:2023/9/4第三讲:数据仓库的多维数据模型数据仓库多维数据模型(Multi-Dimensional Data Model)是为了满足用户从多角度多层次进行数据查询和分析的需要而建立起来的基于事实和维的数据库模型,其基本的应用是为了实现OLAP(Online Analytical Processing)。1.度量值(Measure)度量值是决策者所关心的具有实际意义的数值。例如,销售量、库存量、银行贷款金额等。度量值是所分析的多维数据集的核心,它是最终用户浏览多维数据集时重点查看的数值数据。2. 事实数据表(Fact Table)度量值所在的表称为事实数据表,事实数据表中存放的事实数

2、据通常包含大量的数据行。事实数据表的重要特点是包含数值数据(事实),而这些数值数据可以记录汇总以提供有关单位运作历史的信息。3.维度成员(Dimension Member)维的一个取值称为该维的一个维度成员(简称维成员)。假如一个维是多级别的,那么该维的维度成员是在不同维级别的取值的组合。例如,考虑时间维具有日、月、年这3个级别,分别在日、月、年上各取一个值组合起来,就得到了时间维的一个维成员,即“某年某月某日”。 4. 维度表(Dimension Table)包含维度信息的表是维度表,维度表包含描述事实数据表中的事实记录的特性。 维度表和事实表互相独立,又互相关联并构成一个统一的模式。构建多

3、维数据集时常用的架构:1. 星型模式星型模式是一种多维的数据关系,它由一个事实表(Fact Table)和一组维表(Dimens ion Table)组成。每个维表都有一个维作为主键,所有这些维的主键组合成事实表的主键。事实表的非主键属性称为事实 (Fact),它们一般都是数值或其他可以进行计算的数据; 而维表大都是文字、时间等类型的数据,按这种方式组织好数据我们就可以按照不同的维(事实表的主键的部分或所有)来对这些事实数据进行求和(summary)、求平均(average)、计数(count)、比例(percent)的聚集计算,甚至可以做20-80 分析。这样就可以从不同的角度数字来分析业务

4、主题的情况一个典型的银行贷款分析的模型设计,其中加边框的为主关键字(PK, PrimaryKey),其中贷款分析表是一个事实表,其中的贷款授信金额,贷款余额是需要从各角度观测的数据(事实),而观测的角度是有区域、银行、时间,质量这四个方面组合进行,这些分析角度的有机组合,可以对授信金额和贷款余额进行4 8 4 8 种组合的数据记录分析,以此实现对贷款情况的多角度(维)多层次(数据不同的汇总限度)的分析,贷款分析人员既可以宏观地看到贷款业务的整体情况,又可以微观地观测到具体一家银行一天一类贷款的细节信息。多维分析的时候,维度选择越多数据越细节(划分得更细了),维度选择越少数据越汇总越宏观。2.

5、事实星座模式(Fact Constellation):多个事实表共享维表,可看作星型模式集。3. 雪花模式(Snowflake Schema):是星型模式的变种,其中某些维表将数据进一步分解到附加的维表中,以便减少冗余,但对系统的性能有一定的影响;第四讲:联机分析解决60年代,关系数据库之父E.F.Codd提出了关系模型,促进了联机事务解决(OLTP)的发展(数据以表格的形式而非文献方式存储)。1993 年,E.F.Codd提出了OLAP概念,认为OLTP已不能满足终端用户对数据库查询分析的需要,SQL对大型数据库进行的简朴查询也不能满足终端用户分析的规定。用户的决策分析需要对关系数据库进行大

6、量计算才干得到结果,而查询的结果并不能满足决策者提出的需求。因此,E.F.Codd提出了多维数据库和多维分析的概念,即OLAP。1. 联机事务解决(Online Translation Processing)通常在数据库系统中,事务是工作的离散单位。例如,一个数据库事务可以是修改一个用户的帐户平衡或库存项的写操作。联机事务解决系统(OLTP)实时地采集解决与事务相连的数据以及共享数据库和其它文献的地位的变化。在联机事务解决中,事务是被立即执行的。上世纪60年代,由关系数据库之父E.F.Codd不断发展。2. 联机分析解决(On Line Analytical Proccessing,简称OLA

7、P) 最早由关系数据库之父E.F.Codd于1993年提出。OLAP应用是目前数据仓库上的重要应用之一,是决策分析的关键。作为数据仓库最重要的多维分析工具,OLAP运用存储在数据仓库中的数据完毕各种分析操作,并以直观易懂的形式将分析结果返回给决策人员。它的目的是满足决策支持或多维环境特定的查询和报表需求,技术核心是多维分析。多维分析可以对以多维形式组织起来的数据进行上卷、下钻、切片、切块、旋转等各种分析操作,以便剖析数据,使分析者、决策者能从多个角度、多个侧面观测数据库中的数据,从而进一步了解包含在数据中的信息和内涵。 3. 钻取(Drill-down)在维的不同层次间的变化,从上层降到下一层

8、,或者说是将汇总数据拆分到更细节的数据,比如通过对2023年第二季度的总销售数据进行钻取来查看2023年第二季度4、5、6每月的消费数据,如上图;当然也可以钻取浙江省来查看杭州市、宁波市、温州市这些城市的销售数据。4. 上卷(Roll-up)钻取的逆操作,即从细粒度数据向高层的聚合,如将江苏省、上海市和浙江省的销售数据进行汇总来查看江浙沪地区的销售数据,如上图。5. 切片(Slice)选择维中特定的值进行分析,比如只选择电子产品的销售数据,或者2023年第二季度的数据。6. 切块(Dice)选择维中特定区间的数据或者某批特定值进行分析,比如选择2023年第一季度到2023年第二季度的销售数据,

9、或者是电子产品和日用品的销售数据。7. 旋转(Pivot)即维的位置的互换,就像是二维表的行列转换,如图中通过旋转实现产品维和地区维的互换。8. 联机事务解决(OLTP)和联机分析解决(OLAP)的区别(1)用户和系统的面向性: OLTP是面向顾客的,用于事务和查询解决 OLAP是面向市场的,用于数据分析 (2)数据内容: OLTP系统管理当前数据. OLAP系统管理大量历史数据,提供汇总和聚集机制. (3)数据库设计: OLTP采用实体-联系ER模型和面向应用的数据库设计. OLAP采用星型或雪花模型和面向主题的数据库设计. (4)视图: OLTP重要关注一个公司或部门内部的当前数据,不涉及历史数据或不同组织的数据 OLAP则相反. (5)访问模式: OLTP系统的访问重要由短的原子事务组成.这种系统需要并行和恢复机制. OLAP系统的访问大部分是只读操作OLTPOLAP用户操作人员,低层管理人员决策人员,高级管理人员功能平常操作解决分析决策DB 设计面向应用面向主题数据最新的,细节的,二维的,分立的历史的,聚集的,多维的,集成的存取规模读/写数条(甚至数百条)记录读上百万(甚至上亿)条记录操作频度非常频繁(以秒计)比较稀松(以小时甚至以周计)工作单位严格的事务复杂的查询用户数数百个-数千万个数个-数百个DB 大小100MB-GB100GB-TB

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!