01数据仓库概述

上传人:仙*** 文档编号:118994905 上传时间:2022-07-13 格式:PPTX 页数:49 大小:477.10KB
收藏 版权申诉 举报 下载
01数据仓库概述_第1页
第1页 / 共49页
01数据仓库概述_第2页
第2页 / 共49页
01数据仓库概述_第3页
第3页 / 共49页
资源描述:

《01数据仓库概述》由会员分享,可在线阅读,更多相关《01数据仓库概述(49页珍藏版)》请在装配图网上搜索。

1、第一章 数据仓库概述纲要数据仓库技术产生的背景数据仓库定义数据仓库的组成部件商务智能2一、数据仓库技术产生的背景1决策信息的需求与当前信息状况的不足2操作性系统与分析性系统3新的数据环境的特点3现有的数据库系统的侧重点现有的数据库系统,主要用于事务(Transaction)处理一笔存款(一张存款单)一笔取款(一张取款单)一笔转帐(一张转帐单)一次挂失(一张挂失单)强调多用户并发环境,数据的一致性、完整性 4企业信息化建设现状在数据库技术的支持下,一大批成熟的业务信息系统投入运 行,为企业发展作出了巨大贡献各类信息系统大多属于面向事务处理的OLTP系统信息系统多年运行,积累了大量的数据数据是一种

2、宝贵的资源,但没有充分发挥作用管理决策层对数据分析基础平台的需求日益强烈 5企业信息化建设提出了更高的要求市场竞争日益激烈 创造竞争优势需要及时、准确的做出科学决策科学决策必须以准确、有效的数据为基础充分利用现有数据,将它转化为信息 以客户为中心的经营管理模式 优化客户关系原有系统往往以产品为中心原有系统往往以“单据(票证)”的处理为基础转向“以客户为中心”强调服务,尤其是个性化服务个性化数据 6现有数据库系统处理“分析型”应用存在的问题数据可信性生产率不可能把数据转换成信息数据动态集成问题历史数据问题数据的综合问题:非细节数据,多种程度的综合7分析处理的需求例1:今年销售量下降的因素时间:销

3、售地区:(销售*顾客)顾客地址所在的地区,商品:(销售*订单细则)商品类别,销售部门:销售*员工*部门部门名称,例2:持卡人今年的交易情况与以往相比,有怎样的变化?交易特点(存款、取款、转帐、消费)是什么?持卡人消费倾向(宾馆、大型商场、超级市场等)是什么?要求:多个子系统中的数据(数据集成)历史数据汇总、综合的数据一致的数据视图 8分析人员典型的信息需求覆盖企业内部信息、合作伙伴信息和市场信息覆盖综合信息和明细信息覆盖当前数据和历史数据高可用性高质量的数据(一致性、完整性)支持各种不同的分析方法数据定义符合业务人员要求9分析决策人员的挑战组织内部 横向共享信息 数据的重构 个人授权 服务和质

4、量管理组织之间 合作伙伴 客户驱动的解决方案 战略联盟 价值链和供应链市场 竞争对手 市场分割 实时的市场行情 全球化10数据可信性数据没有同一时间基准例如:一个企业的两个部门向管理者呈送报表部门A,于星期天傍晚抽取了分析所需的数据,结论为业绩上升10%部门B,于星期三下午抽取了分析所需的数据,结论为业绩下降15%算法不同 部门A使用的是旧帐号 部门B使用的是大帐号多次抽取,扩大了上述两个问题用抽取程序从数据库或文件中抽取数据,并存放起来,然后又在此基础上再次进行抽取,从数据进入系统到提供分析往往经过8、9次的抽取。11数据可信性 外部数据问题一位分析员把华尔街日报的数据带进系统另一位将商业周

5、刊的数据进入系统数据一旦进入系统,往往已失去“身份”,并且一位分析员也不知道另一位分析员所输入的数据开始时就不是同一个公共的数据源部门A最初来源于文件XYZ部门B最初来源于数据库数据库 ABC12生产率 为了生成一个企业报表:获得源数据定位和分析数据:由于同名不同义、同义不同名,很难准确定位和分析,可能造成进一步的混乱把数据加工成报告要写许多程序,每个程序必须客户化(与客户环境有关)程序会涉及公司具有的各种技术由于定位数据困难,检索所要的数据是一件很麻烦的事完成任务需要很长时间定位数据+获得数据+集成报告,完成任务所需时间较长每份报告各自需求不同,因此每份报告所需要的时间都很长。13从数据到信

6、息 例如:“今年的帐户情况与前五年比较”涉及大量应用:储蓄应用、贷款、即期汇票管理、信托,而这些应用并未集成。没有足够的历史数据:贷款部门,拥有二年的数据 银行存折处理,拥有一年的数据 即期汇票管理只有60天的数据 现金交易处理具有18个月的数据。数据不一致问题:同名不同义、同义不同名,例如M/F,Male/Female外部数据和非结构化数据外部数据和非结构化数据 14两种报表的区别例:就一个银行而言出纳员需要操作型报表,因为他需要知道当天所有交易,来确定一天结束时的现金余额;银行行长的长期战略决策(如决定一个地区安装ATM机 的数目)就需要了解大量的内部和外部信息,每天的交易报表对他意义不大

7、,他更需要分析型报表152 操作型系统 vs.信息型系统操作型系统,OLTP下订单处理呼叫装货开发货单收取现金预定座位16信息型系统 给我销售量最好的产品名单 告诉我出问题的地区 告诉我为什么(向下钻取)让我看看其他的数据(横向钻取)显示最大利润 当一个地区的销售低于目标值时,提醒我将数据写入数据库从数据库中读取战略信息操作型系统 vs.信息型系统操作型系统操作型系统信息型系统信息型系统数据内容数据内容当前值存档的,推导出来的,总结的值数据结构数据结构适于事务处理适于复杂查询访问频率访问频率高中、低访问连接类访问连接类型型读取、更新、删除读取使用方法使用方法可预知的、反复性的特别查询、随机的、

8、启发式的应用响应时间响应时间快一般用户用户大量较少数17操作型环境和分析型环境不同的需求,要求将操作型环境和分析型环境相分离 在操作型环境中支持分析应用太复杂、太困难 操作性环境不支持域(Domain)之间的联系,仅仅支持表之间的连接 不同的数据环境要求从数据组织(结构)和操作上进行工作183 数据仓库要解决的基本问题 全局范围内统一数据视图数据内容 数据的完整性 数据的准确性 数据的一致性数据组织 面向分析决策19数据仓库的功能性定义数据仓库是一种信息环境,它能够:提供对企业综合、完整的概括使决策者所需要的当前数据和历史数据都方便易得无需妨碍操作型系统,也能使支持决策的处理成为可能使企业的信

9、息保持一致性提供了一个灵活的、交互的战略信息来源20数据仓库是信息传递的一种简单概念数据仓库的来源在于对决策信息的需求和数据仓库的来源在于对决策信息的需求和对操作型计算环境的不满对操作型计算环境的不满数据仓库不“创造”新的数据数据仓库概念简单使用所有现存的数据通过清洗、转换提供有用的决策信息21数据仓库是一种环境,而不是产品你不可能买到数据仓库但你可以构建自己的数据仓库数据仓库新型计算环境的特点数据分析和决策支持的理想环境不固定,灵活、交互式操作100用户驱动适合适合”提问回答再提问提问回答再提问”的模式的模式22纲 要数据仓库技术产生的背景数据仓库定义数据仓库的组成部件商务智能231 数据仓

10、库定义数据仓库的创始者 Bill Inmon:“A Data Warehouse is a subject oriented,integrated,nonvolatile,and time variant collection of data in support of managements decisions.”“数据仓库是为支持管理决策建立的,面向主题的,综合的,稳定的,随时间变化的数据集合”24“面向主题”的数据在操作型系统中,各行业的数据集合都是围绕单独的应用程序进行组织的在数据仓库中数据是按主题而不是按照应用程序存储的。数据是跨应用程序的25订单处理订单处理客户贷款客户贷款顾客帐单

11、顾客帐单可接收帐款可接收帐款索赔处理索赔处理储蓄帐目储蓄帐目销售销售产品产品客户客户帐户帐户索赔索赔政策政策操作型应用程序操作型应用程序数据仓库主题数据仓库主题面向主题的数据组织主题:宏观分析领域所涉及的分析对象面向主题的数据组织方式:在较高的层次上对分析对象的数据的一个完整、一致的描述。采用面向事务进行数据组织,其特点为:充分考虑企业的部门组织结构和业务活动 反映企业内部数据流动情况,业务处理的数据流程 与业务处理流程中的单据、票证、文档有良好的对应 数据与应用(数据的处理)有一定的对应例:保险公司:面向应用(操作):财产险、寿险、健康险、意外险面向主题:客户、保单、保费、理赔(赔款)。26

12、“综合”的数据数据仓库中的数据来自不同的数据库、文件、数据段。(内部或者外部,不同的平台)数据进入数据仓库前,需要进行的标准化工作:命名规则 编码27储蓄帐户支票帐户贷款帐户主题帐户来自应用程序的数据来自应用程序的数据数据仓库主题数据仓库主题 数据特性 度量单位数据的“时间特性”数据仓库中的每一个数据结构都包含了时间要素。数据仓库中的数据是和时间变化相关的数据可以对过去进行分析与当前的信息相关可以对未来进行预测28数据的非易变性(相对稳定)操作型系统的数据实时地进行更新,每次交易发生都要更新;数据仓库中的数据非实时性更新数据仓库中的数据是用来进行查询和分析的不能在数据仓库中实时地删除数据不能在

13、数据仓库中修改数据29决策支持系统决策支持系统操作型系统操作型系统OLTP数据库数据库数据仓库数据仓库 读取 增加 修改 删除 读取2 数据仓库和数据集市数据仓库和数据集市(Data Mart)是一个混淆不清的概念。是学术界争论的话题Bill Inmon(1998):“今年IT经理面对的最重要的问题就是到底先建数据仓库还是先建立数据集市”,今天依然如此。在建立数据仓库前,我们需要考虑下列这些问题:采取自上而下还是自下而上的方法企业范围还是部门范围先建立数据仓库还是数据集市数据集市是否相互独立30数据仓库 vs.数据集市数据仓库数据仓库数据集市数据集市完整的,从企业整体考虑的部门的所有数据集市的

14、集合一个单独的商业处理过程从阶段区域得到的数据星型结构通过展示的方式进行查询适合数据连接和分析技术基于公司数据视角的结构基于适合部门数据视角的结构通过实体关系模式进行组织31纲要数据仓库技术产生的背景数据仓库定义数据仓库的组成部件商务智能32数据仓库的组成部分(Component)33 源数据部分主要类别生产数据:多个系统多种数据的标准化、转换、整合内部数据:表格、文档存档数据:旧的历史的数据外部数据:社会的企业,社会的人34数据准备部分ETL(ETCL)数据抽取(Extract):多源、异构数据的抽取数据转换(Transform):清洗(Clean)、标准化等过程 数据装载(Load)35数

15、据存储部分数据仓库的数据存储器是一个独立的部分与操作型的数据库分开存储大多数数据仓库都采用关系数据库管理系统36信息传递部分多种信息传递方式特别的报表复杂的查询多维分析统计分析主管信息系统的需求数据挖掘37元数据 MetaData描述数据的数据数据仓库内容的一本字典元数据是数据仓库数据本身信息的数据元数据对于数据仓库极其重要38纲要数据仓库技术产生的背景数据仓库定义数据仓库的组成部件商务智能392007年三大并购案商务智能开始发力,渐入佳景Oracle 33亿美金 收购 HyperionSAP 48亿欧元 收购 Business ObjectIBM 50亿美金 收购 Cognos2006年ID

16、C 商务智能领域 10强BO 8.94亿美元SAS 6.79亿美元微软、Hyperion、Oracle 、SAP40厦门大学软件学院41国内BI状况厦门大学软件学院42Gartner 2013年:中国BI市场份额 11.75亿美元 商务智能Business Intelligence BI概念提出:Gartner Group(1996年)BI通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。数据包括来自企业业务系统的订单、库存、交易账目、客户和供应商等来自企业所处行业和竞争对手的数据以及来自企业所处的其他外部环境中的各种数据。商业智能能够辅助的业务经营决策,既可以是

17、操作层的,也可以是战术层和战略层的决策。43为了将数据转化为知识,需要利用数据仓库、联机分析处理(OLAP)工具和数据挖掘等技术。商业智能不是什么新技术,它只是数据仓库数据仓库、OLAP和和数据挖掘数据挖掘等技术的综合运用。BI的实现涉及到软件、硬件、咨询服务及应用,其基本体系结构包括数据仓库、联机分析处理和数据挖掘三个部分。BI是一种解决方案。44BI的关键从许多来自不同的企业运作系统的数据中提取出有用的数据并进行清理,以保证数据的正确性,然后经过抽取、转换和装载,合并到一个企业级的数据仓库里,从而得到企业数据的一个全局视图,在此基础上利用合适的查询和分析工具、数据挖掘工具、OLAP工具等对其进行分析和处理(这时信息变为辅助决策的知识),最后将知识呈现给管理者,为管理者的决策过程提供支持。45数据仓库Data Warehousing:DW联机分析处理Online-Analyst Processing:OLAP数据挖掘Data Mining:DM46课后作业自行安装SQLServer查以下资料淘宝招聘的数据库、数据分析、数据仓库、数据挖掘等职务的条件到招聘网站了解相关岗位的就业状况目前以下公司的数据仓库与数据挖掘软件的状况OracleIBMMicrosoft了解“Big Data”、“个性化数据”的特点本次作业不用上交、自愿完成47演讲完毕,谢谢观看!

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!