商务智能与决策支持绪论

上传人:嘀**** 文档编号:205623736 上传时间:2023-04-29 格式:PPTX 页数:106 大小:2.10MB
收藏 版权申诉 举报 下载
商务智能与决策支持绪论_第1页
第1页 / 共106页
商务智能与决策支持绪论_第2页
第2页 / 共106页
商务智能与决策支持绪论_第3页
第3页 / 共106页
资源描述:

《商务智能与决策支持绪论》由会员分享,可在线阅读,更多相关《商务智能与决策支持绪论(106页珍藏版)》请在装配图网上搜索。

1、商务智能与决策支持绪论绪论山东大学管理学院2山东大学管理学院主要内容主要内容一、商务智能概述一、商务智能概述二、数据仓库概述二、数据仓库概述三、数据挖掘概述三、数据挖掘概述3山东大学管理学院一、一、商务智能概述商务智能概述1、商务智能的定义、商务智能的定义2、商务智能的核心技术及其架构、商务智能的核心技术及其架构3、商务智能的三个层次、商务智能的三个层次4、商务智能可以发挥的作用、商务智能可以发挥的作用5、商务智能能为企业带来效益吗、商务智能能为企业带来效益吗?6、商务智能的应用现状、商务智能的应用现状7、商务智能软件厂商、商务智能软件厂商4山东大学管理学院1、商务智能的定义:、商务智能的定义

2、:商务智能的定义:众说纷纭。高级管理人员信息系统(EIS)?管理信息系统(MIS)?决策支持系统(DSS)?数据库技术?数据仓库?数据集市?数据整合与清洗工具?查询和报告工具?在线分析处理工具?数据挖掘?统计分析?分析性ERP?分析性CRM?56目前,学术界对商务智能的定义并不统一。商务智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。这里所谈的数据包括来自企业业务系统的订单、库存、交易账目、客户和供应商等来自企业所处行业和竞争对手的数据以及来自企业所处的其他外部环境中的各种数据。山东大学管理学院7而商务智能能够辅助的业务经营决策,既可以是操作层的,也可以是战

3、术层和战略层的决策。为了将数据转化为知识,需要利用数据仓库、联机分析处理(OLAP)工具和数据挖掘等技术。因此,从技术层面上讲,商务智能不是什么新技术,它只是数据仓库、OLAP和数据挖掘等技术的综合运用。山东大学管理学院8商务智能的概念于1996年最早由加特纳集团(GartnerGroup)提出,加特纳集团将商务智能定义为:商务智能描述了一系列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的制定。商务智能提供使企业迅速分析数据的技术和方法,包括收集、管理和分析数据,将这些数据转化为有用的信息,然后分发到企业各处。山东大学管理学院9商务智能的定义商务智能的定义商务智能(BusinessI

4、ntelligence)是企业利用现代信息技术收集、管理和分析结构化和非结构化的商务数据和信息,创造和累计商务知识和见解,改善商务决策水平,采取有效的商务行动,完善各种商务流程,提升各方面商务绩效,增强综合竞争力的智慧和能力。山东大学管理学院10山东大学管理学院2、商务智能的核心技术及其架构、商务智能的核心技术及其架构 BI 不是一种技术而是多种技术综合起来的解决方案。商务智能一般由数据仓库、联机分析处理、数据挖掘、数据备份和恢复等部分组成。商业智能的实现涉及到软件、硬件、咨询服务及应用,其基本体系结构包括数据仓库、联机分析处理和数据挖掘三个部分。DW Data Warehousing OLA

5、P On-Line Analytical Processing DM Data Mining11商务智能的关键是从许多来自不同的企业运作系统的数据中提取出有用的数据并进行清理,以保证数据的正确性,然后经过抽取(Extraction)、转换(Transformation)和装载(Load),即ETL过程,合并到一个企业级的数据仓库里,从而得到企业数据的一个全局视图,在此基础上利用合适的查询和分析工具、数据挖掘工具、OLAP工具等对其进行分析和处理(这时信息变为辅助决策的知识),最后将知识呈现给管理者,为管理者的决策过程提供支持。山东大学管理学院12山东大学管理学院Architecture of

6、Business Intelligence System13nETL(Extraction-Transformation-Loading)是数据抽取(Extract)、转换(Transform)、清洗(Cleansing)、装载(Load)的过程。是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。ETL负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。山东大学管理学院14ETL是数据仓库中的非常重要的一

7、环。它是承前启后的必要的一步。相对于关系数据库,数据仓库技术没有严格的数学理论基础,它更面向实际工程应用。所以从工程应用的角度来考虑,按着物理数据模型的要求加载数据并对数据进行一些系列处理,处理过程与经验直接相关,同时这部分的工作直接关系数据仓库中数据的质量,从而影响到联机分析处理和数据挖掘的结果的质量。山东大学管理学院15n多维联机分析处理多维联机分析处理(multidimensionalonlineanalyticalprocessing)是一个直接编入多维数据库的联机分析处理(OLAP)。一般来说,一个OLAP应用程序以多维方式处理数据。用户可以观察数据集合体的不同方面,例如销售时间,地

8、点和产品模型。如果数据贮存在相关的数据库里,那么它能被多维的观察,但是只能用连续的访问和处理数据集合体的一个方面的表格的方式。MOLAP处理已经存贮在多维列表里的数据,在列表里数据可能的结合都被考虑,每个数据都在一个能够直接访问的单元里。MOLAP常常用作数据仓库应用程序的一部分。山东大学管理学院16八维以上的数据分析八维以上的数据分析如果说OLTP侧重于对数据库进行增加、修改、删除等日常事务操作,OLAP(OnlineAnalyticsProcess,在线分析系统)则侧重于针对宏观问题,全面分析数据,获得有价值的信息。为了达到OLAP的目的,传统的关系型数据库已经不够了,需要一种新的技术叫做

9、多维数据库。山东大学管理学院17多维数据库的概念并不复杂。举一个例子,我们想描述2009年8月份可乐在北部地区销售额10万元时,牵扯到几个角度:时间、产品、地区。这些叫做维度维度。至于销售额,叫做度量值度量值。当然,还有成本、利润等。除了时间、产品和地区,我们还可以有很多维度,例如客户的性别、职业、销售部门、促销方式等等。实际上,使用中的多维数据库可能是一个8维或者15维的立方体。虽然结构上15维的立方体很复杂,但是概念上非常简单。山东大学管理学院18nKPI(KeyPerformanceIndication)即关键业绩指标关键业绩指标,是通过对组织内部某一流程的输入端、输出端的关键参数进行设

10、置、取样、计算、分析,衡量流程绩效的一种目标式量化管理指标,是把企业的战略目标分解为可运作的远景目标的工具,是企业绩效管理系统的基础。KPI是现代企业中受到普遍重视的业绩考评方法。KPI可以使部门主管明确部门的主要责任,并以此为基础,明确部门人员的业绩衡量指标,使业绩考评建立在量化的基础之上。建立明确的切实可行的KPI指标体系是做好绩效管理的关键。山东大学管理学院19KPI法符合一个重要的管理原理“二八原理”:在一个企业的价值创造过程中,存在着“20/80”的规律,即20%的骨干人员创造企业80%的价值;而且在每一位员工身上“二八原理”同样适用,即80%的工作任务是由20%的关键行为完成的。因

11、此,必须抓住20%的关键行为,对之进行分析和衡量,这样就能抓住业绩评价的重心。山东大学管理学院203、商务智能的三个层次、商务智能的三个层次n低端:报表系统n中端:数据分析n高端:数据挖掘山东大学管理学院21经过几年的积累,大部分大中型的企事业单位已经建立了比较完善的CRM、ERP、OA等基础信息化系统。这些系统的统一特点都是:通过业务人员或者用户的操作,最终对数据库进行增加、修改、删除等操作。上述系统可统一称为OLTP(OnlineTransactionProcess,在线事务处理),指的就是系统运行了一段时间以后,必然帮助企事业单位收集大量的历史数据。山东大学管理学院22但是,在数据库中分

12、散、独立存在的大量数据对于业务人员来说,只是一些无法看懂的天书。业务人员所需要的是信息,是他们能够看懂、理解并从中受益的抽象信息。此时,如何把数据转化为信息,使得业务人员(包括管理者)能够充分掌握、利用这些信息,并且辅助决策,就是商务智能主要解决的问题。如何把数据库中存在的数据转变为业务人员需要的信息?大部分的答案是报表系统。简单说,报表系统已经可以称作是BI了,它是BI的低端实现低端实现。山东大学管理学院23现在国外的企业,大部分已经进入了中端BI,叫做数据分析数据分析。有一些企业已经开始进入高端BI,叫做数据挖掘数据挖掘。而我国的企业,目前大部分还停留在报表阶段。传统的报表系统技术上已经相

13、当成熟,大家熟悉的Excel、ReportingService等都已经被广泛使用。但是,随着数据的增多,需求的提高,传统报表系统面临的挑战也越来越多。山东大学管理学院24数据太多,信息太少数据太多,信息太少密密麻麻的表格堆砌了大量数据,到底有多少业务人员仔细看每一个数据?到底这些数据代表了什么信息、什么趋势?级别越高的领导,越需要简明的信息。董事长可能只需要一句话:目前我们的情况是好、中还是差?山东大学管理学院25难以交互分析、了解各种组合难以交互分析、了解各种组合定制好的报表过于死板。例如,我们可以在一张表中列出不同地区、不同产品的销量,另一张表中列出不同地区、不同年龄段顾客的销量。但是,这

14、两张表无法回答诸如“华北地区中青年顾客购买数码相机类型产品的情况”等问题。业务问题经常需要多个角度的交互分析。山东大学管理学院26难以挖掘出潜在的规则难以挖掘出潜在的规则报表系统列出的往往是表面上的数据信息,但是海量数据深处潜在含有哪些规则呢?什么客户对我们价值最大?产品之间相互关联的程度如何?越是深层的规则,对于决策支持的价值越大,但是,也越难挖掘出来。山东大学管理学院27难以追溯历史,数据形成孤岛难以追溯历史,数据形成孤岛业务系统很多,数据存在于不同地方。太旧的数据(例如一年前的数据)往往被业务系统备份出去,导致宏观分析、长期历史分析难度很大。因此,随着时代的发展,传统报表系统已经不能满足

15、日益增长的业务需求了,企业期待着新的技术。数据分析和数据挖掘的时代正在来临。山东大学管理学院28山东大学管理学院4、商务智能可以发挥的作用、商务智能可以发挥的作用-决策/管理(Decision/Management Processes)-客户服务(Customer Services)-竞争优势(Ahead of Competition)-合作策略(Corporate Strategy)-运作成本(Costs of Operations)-客户保持(Customer Retention)-新客户/市场(New Customers/Markets)-投资回报率(ROI/Marketing Inve

16、stments)295.商务智能能为企业带来效益吗商务智能能为企业带来效益吗?商务智能帮助企业的管理层进行快速,准确的决策,迅速的发现企业中的问题,提示管理人员加以解决。但商务智能软件系统不能代替管理人员进行决策,不能自动处理企业运行过程中遇到的问题。因此商务智能系统并不能为企业带来直接的经济效益。但必须看到,商务智能为企业带来的是一种经过科学武装的管理思维,给整个企业带来的是决策的快速性和准确性,发现问题的及时性,以及发现那些对手未发现的潜在的知识和规律,而这些信息是企业产生经济效益的基础。山东大学管理学院30山东大学管理学院6、商务智能的应用现状、商务智能的应用现状 -IDC的一项研究表明

17、北美企业纷纷转向商务智能工具的开发和应用。商业智能软件市场方兴未艾,为低迷的 IT产业带来一束曙光。-根据弗瑞斯特研究中心的调查发现,去年底有 44的企业表示,计划短期购买 BI软件。-另外,据 IDC提供的数据,在五年之内,商业智能市场规模将从现在的 55亿美元扩大到 157亿美元。-正是看到了BI市场的巨大“钱途”,一些 IT服务提供商 纷纷推出自己的BI软件,如 Oracle、微软、IBM公司,国内的一些公司等均大力开发和推广BI软件。与此同时,一些商业企业、制造企业也在积极应用 BI软件,为其决策提供有价值的服务。-报告预测,到2010年,中国BI市场规模会超过50亿元。317.商务智

18、能软件厂商商务智能软件厂商目前主要商务智能软件厂商有:nIBMnORACLEnSAPnSASnSybasenAnalyzern微软n菲奈特n和勤山东大学管理学院32山东大学管理学院二、数据仓库概述二、数据仓库概述1、数据库技术的发展2、OLTP与OLAP3、数据仓库的产生4、数据仓库的定义5、数据仓库的发展6、数据仓库与数据挖掘的关系33山东大学管理学院二、数据仓库概述二、数据仓库概述1、数据库技术的发展、数据库技术的发展(1)19701980s早期早期-关系数据模型,关系数据库管理系统(RDBMS)的出现 (2)1980s晚期晚期-各种高级数据库系统(扩展的关系数据库,面向对象数据库)-面向

19、应用的数据库系统(空间数据库,时序数据库)(3)1990s -数据挖掘,数据仓库,多媒体数据库和网络数据库 (4)2000s-流数据管理和挖掘 -基于各种应用的数据挖掘 -XML数据库和整合的信息系统 34山东大学管理学院2、OLTP与与OLAP (1)OLTP(On-line Transaction Processing)即在线操作处理,是指对数据库的联机操作处理。事务型处理是用来协助企业对响应事件或事务的日常商务活动进行处理。它是事件驱动、面向应用的,通常是对一个或一组记录的增、删、改以及简单查询等。事务型处理的应用程序和数据是紧紧围绕着所管理的事件来构造的。35山东大学管理学院二、数据仓

20、库概述2、OLTP与与OLAP (2)OLAP(On-Line Analytical Processing)即在线分析处理,用于管理人员的决策分析,例如DSS、EIS、和多维分析等。它帮助决策者分析数据以此察看趋向、判断问题。分析型处理经常要访问大量的历史数据,支持复杂的查询。在分析型处理中,并不是对从事务型处理环境中得到的细节数据进行分析。细节数据量太大,会严重影响分析的效率,而且太多的细节数据不利于分析人员将注意力集中于有用的信息。36山东大学管理学院二、数据仓库概述2、OLTP与OLAP 37山东大学管理学院二、数据仓库概述3、数据仓库的产生:为什么要创建数据仓库?为什么要创建数据仓库?

21、传统数据库的处理方式和决策分析中的数据需求不相称,主要表现在:(1 1)决策处理的系统响应问题)决策处理的系统响应问题 在日常事务处理中,用户对系统和数据库的要求是数据存取频率要高,操作时间要短;而在决策分析中,有的决策问题请求可能导致长达数小时的运行,有的决策分析问题的解决需要遍历数据库中大部分数据,这些是日常事务处理系统所无法承担的。因此操作型数据和决策型数据应该分离。38(2)决策数据需求的问题)决策数据需求的问题在进行决策时,需要有全面的、正确的集成数据。如果将数据集成问题交给决策分析程序解决,将大大增加决策分析系统的负担,并且没必要在每次进行决策分析时都进行数据集成。对在不同的应用系

22、统中,存在的同一实体属性具有不同数据类型、不同字段名称以及不同格式等,在决策数据集成时需要进行转换。决策数据需要动态更新,并且往往需要一些经过汇总、概括的数据。山东大学管理学院二、数据仓库概述39(3)决策数据操作的问题决策数据操作的问题从对数据的操作方式上讲,日常事务处理系统远远不能满足决策人员的需要,决策分析人员希望以专业用户的身份使用各种工具对数据进行多种形式的操作,对数据操作结果以商业智能的方式表达出来,现有系统很难达到此要求。山东大学管理学院二、数据仓库概述40由于系统响应问题系统响应问题、决策数据问题决策数据问题和决策数据操作问决策数据操作问题题的存在,导致企业无法使用现有的业务处

23、理来满足决策分析的需要,因此决策分析需要一个能够不受传统事务处理的约束、高效率处理决策分析数据的支持环境,这就是数据仓库存在的价值。山东大学管理学院二、数据仓库概述41山东大学管理学院二、数据仓库概述3、数据仓库的产生、数据仓库的产生 -1988年IBM爱尔兰公司第一次提出了“信息仓库”的概念。-90年代初数据仓库的基本原理、框架架构,分析系统的主要原则都已经确定,主要的技术已具备,一些公司开始建立数据仓库。-1992年美国著名的信息工程学家William H.Inmon 在Building the Data Warehouse(建立数据仓库)一书中首先系统的阐述了数据仓库的思想、理论。被人们

24、尊称为“数据仓库之父”。42山东大学管理学院二、数据仓库概述4、数据仓库的定义、数据仓库的定义数据仓库用来保存从多个数据库或其它信息源选取的数据,并为上层应用提供统一 用户接口,完成数据查询和分析。数据仓库是作为DSS服务基础的分析型DB,用来存放大容量的只读数据,为制定决策提供所需要的信息。数据仓库是与操作型系统相分离的、带有时间属性的、面向主题及不可更新的数据集合。W.H.Inmon在1992最先提出了数据仓库的概念。按照Inmon的定义,数据仓库是面向主题的、集成的、不可更新的数据仓库是面向主题的、集成的、不可更新的(稳定的)、随时间不断变化(不同时间)的数据集(稳定的)、随时间不断变化

25、(不同时间)的数据集合,用于支持经营管理中的决策制定过程。合,用于支持经营管理中的决策制定过程。43山东大学管理学院二、数据仓库概述4、数据仓库的定义数据集市(DataMart)也可叫做“小数据仓库”。如果说数据仓库是建立在企业级的数据模型之上的话。那么数据集市就是企业级数据仓库的一个子集,他主要面向部门级业务,并且只面向某个特定的主题。44山东大学管理学院二、数据仓库概述4、数据仓库的定义45山东大学管理学院二、数据仓库概述5、数据仓库的发展数据仓库的发展 -NCR公司为Wal Mart建立了第一个数据仓库。-1996年,加拿大的IDC公司调查了62家实现了数据仓库的欧美企业,结果表明:数据

26、仓库为企业提供了巨大的收益。-IBM:在其DB2发布一年后的1998年9月发布5.2版,并于1998年12月推向中国市场,除了用于OLAP(联机分析处理)的后台服务器DB2 OLAP Server外,IBM还提供了一系列相关的数据仓库产品,包括前端工具,形成一整套解决方案。-Informix:在其动态服务器IDS(Informix Dynamic Server)中提供一系列相关选件,如高级决策支持选件(Advanced Decision Support Option)、OLAP选件(MetaCube ROLAP Option)、扩展并行选件(Extended Parallel Option)等

27、,其中数据仓库和数据库查询的SQL语句的一致性使得用户开发更加简便。46山东大学管理学院二、数据仓库概述5、数据仓库的发展 -微软公司:在其SQL Server7.0以及SQL Server2000中集成了OLAP服务器。SQL Server2005集成了数据挖掘组件。-Sybase:提供了专门的OLAP服务器Sybase IQ,并将其与数据仓库相关工具打包成Warehouse Studio。-Oracle:推出从数据仓库构建、OLAP到数据集市管理等一系列产品包(如Oracle Warehouse Builder、Oracle Express、DataMart Suit等)。47山东大学管理

28、学院二、数据仓库概述5、数据仓库的发展 我国数据仓库的发展现状:我国数据仓库的发展现状:数据仓库的概念已经被国内用户接受多年,但在应用方面的收效仍很有限。原因:原因:-尚不存在可靠的、完善的、被广泛接受的数据仓库标准;-现有的数据库系统不健全,数据积累还不够,无法提出决策支持需求;-缺乏能够担负规划、设计、构建和维护数据仓库的重任的复合型人才;-缺乏数据仓库前端工具(如OLAP工具、数据挖掘工具等);-由于国内外文化的差异,一些用于构建数据仓库的知名产品无法处理 一些难以预料的问题,使得建立数据仓库的困难加大。48山东大学管理学院二、数据仓库概述5、数据仓库的发展 我国数据仓库的发展前景:我国

29、数据仓库的发展前景:随着计算机技术的发展,尤其是分布式技术的发展,特别是思想观念的进步,数据仓库在我国有着广阔的发展空间和良好的发展前景。-由于银行商业化的步伐正在加大和外资银行的不断进入,各大中型银行开始重新考虑自身的业务,特别是信贷风险管理方面特别注意,因而有关信贷风险管理和风险规章的基于数据仓库的决策支持系统的需求逐渐增多;-由于电子商务的迅速发展,越来越多的电子商务网站,开始考虑如何将数据仓库应用于商品销售分析、顾客的诚信度分析等,为客户提供更进一步的个性化服务;-移动通信等各种大型企业也开始考虑着手进行决策支持以及数据仓库规划。49山东大学管理学院二、数据仓库概述6、数据仓库与数据挖

30、掘的关系数据仓库与数据挖掘的关系 -数据仓库系统的数据可以作为数据挖掘的数据源数据仓库系统的数据可以作为数据挖掘的数据源 数据仓库系统能够满足数据挖掘技术对数据环境的要求,可以直接作为数据挖掘的数据源。-数据挖掘的数据源不一定必须是数据仓库系统数据挖掘的数据源不一定必须是数据仓库系统 数据挖掘的数据源可以是任何数据文件或格式,但必须事先进行数据预处理,处理成适合数据挖掘的数据。50山东大学管理学院三、数据挖掘概述三、数据挖掘概述1、数据挖掘的产生2、数据挖掘的定义3、数据挖掘与知识发现4、在何种数据上进行数据挖掘5、数据挖掘的功能6、数据挖掘系统的分类7、数据挖掘常用技术8、数据挖掘的过程9、

31、数据挖掘应用领域10、数据挖掘的发展趋势51山东大学管理学院三、数据挖掘概述什么是数据挖掘?什么是数据挖掘?数据挖掘就是从大量的数据中提取或挖掘知识,就像从矿石中采金52山东大学管理学院三、数据挖掘概述摩尔定律 微处理器的性能每隔18个月提高一倍,而价格 不变。网络化时代 互联网用户数 网络经济飞速发展 电子商务市场交易额信息社会结果?53山东大学管理学院三、数据挖掘概述结果之一:信息量过大,难以消化结果之二:信息真假难以辨别结果之三:信息安全难以保证结果之四:信息形式不一致,难以统一 处理How To deal with it?54山东大学管理学院三、数据挖掘概述数据库越来越大数据库越来越大

32、数据挖掘数据挖掘有价值的知识有价值的知识可怕的数据可怕的数据55山东大学管理学院三、数据挖掘概述啤酒与尿布的故事全球连锁零售巨头沃尔玛公司NCR公司Teradata(数据仓库)事业部,提供数据仓库系统56山东大学管理学院三、数据挖掘概述市场需求是技术发展的源动力 “我们花了20多年的时间将数据放入数据库,如今是该将它们拿出来的时候了。”著名的数据挖掘专家 Ralph Kimball57山东大学管理学院三、数据挖掘概述1、数据挖掘的产生数据爆炸数据爆炸自动数据收集工具和成熟的数据库技术使得大量的数据被收集,存储在数据库、数据仓库或其他信息库中以待分析。知识饥饿知识饥饿我们拥有丰富的数据,但却缺乏

33、有用的信息。问题的解决问题的解决从大量数据中找出隐藏在其中的、有用的信息和规律;计算机技术和信息技术的发展使其有能力处理这样大量的数据。58山东大学管理学院三、数据挖掘概述1、数据挖掘的产生进化阶段进化阶段商业问题商业问题支持技术支持技术产品厂家产品厂家产品特点产品特点数据搜集(60年代)“过去五年中我的总收入是多少?”计算机、磁带和磁盘IBM,CDC提供历史性的、静态的数据信息数据访问(80年代)“在新英格兰的分部去年三月的销售额是多少?”关系数据库(RDBMS),结构化查询语言(SQL),ODBCOracle、Sybase、Informix、IBM、Microsoft提供历史性的、动态数据

34、信息数据仓库(90年代)“新英格兰的分部去年三月的销售额是多少?波士顿据此可得出什么结论?”联机分析处理(OLAP)、多维数据库、数据仓库Pilot、Comshare、Arbor、Cognos、Microstrategy在各种层次上提供回溯的、动态的数据信息数据挖掘(正在流行)“下个月波士顿的销售会怎么样?为什么?”高级算法、多处理器计算机、海量数据库SAS、SPSS、IBM、微软、其他初创公司提供预测性的信息59山东大学管理学院三、数据挖掘概述1、数据挖掘的产生 并非所有的东西都是数据挖掘-基于数据仓库的OLAPOLAP专注于数据的汇总,而数据挖掘系统可以对数据进行多种复杂的处理。-机器学习

35、系统,数据统计分析系统这些系统所处理的数据容量往往很有限。-信息系统专注于数据的查询处理。相比于上述系统,数据挖掘系统关注更广的范围,是一个多学科的融合。60山东大学管理学院三、数据挖掘概述1、数据挖掘的产生 数据挖掘技术是一门综合性的技术领域,主要涉及数据库、人工智能和数理统计等技术领域。可广泛地应用于科学研究、市场营销、金融分析、体育比赛等许多方面。61山东大学管理学院三、数据挖掘概述1、数据挖掘的产生 查询驱动的OLAP可以按要求将数据展示在决策者面前,却无法自动发现潜藏在数据中的有用信息,大大降低了数据的使用价值。为实现对潜藏信息的自动发掘,90年代中期出现了数据挖掘技术(Data M

36、ining)。-八十年代人工智能(AI)研究项目失败后,转入实际应用时提出。-1989年国际上第一次关于数据挖掘与知识发现的研讨会在美国的底特律召开,在此次会议上第一次提出了知识发现一词。-1995年,在加拿大召开了第一届KDD和DM国际学术会议。会议对KDD和DM做了确切的定义。62山东大学管理学院三、数据挖掘概述2、数据挖掘的定义 技术上的定义:技术上的定义:数据挖掘(数据挖掘(Data Mining)就是从大量的、就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是中,提取隐含在其中的、人

37、们事先不知道的、但又是潜在有用的信息和知识的过程。潜在有用的信息和知识的过程。-原始数据可以是结构化结构化的;也可以是半结构化半结构化的。-数据源必须是真实的、大量的、含噪声的;-发现的是用户感兴趣的知识;-发现的知识要可接受、可理解、可应用;-并不要求发现放之四海而皆准的普遍规律,仅支持特定的发现问题。63山东大学管理学院三、数据挖掘概述结构化数据结构化数据:存储在数据库里,可以用二维表结构来逻辑表达实现的数据叫结构化数据。非结构化数据非结构化数据:不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、Web页、各类报表、图像和音频/视频信息等等。半结构

38、化数据半结构化数据:介于两者之间,具有隐含模式、信息结构不规则、无严格类型约束等特点。字段可根据需要扩充,即字段数目不定,例如Exchange存储的数据。64山东大学管理学院三、数据挖掘概述2、数据挖掘的定义 商业角度的定义:商业角度的定义:数据挖掘是一种新的商业信息处数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中得据进行抽取、转换、分析和其他模型化处理,从中得到辅助商业决策的关键数据。到辅助商业决策的关键数据。企业数据量非常大,而其中真正有价值的信息却很少,因此从大量的数据中

39、经过深层分析,获得有利于商业运作、提高竞争力的信息,就像从矿石中淘金一样,数据挖掘也因此而得名。65山东大学管理学院三、数据挖掘概述2、数据挖掘的定义 数据挖掘与传统分析方法的区别数据挖掘与传统分析方法的区别 数据挖掘与传统分析方法(如查询、报表、联机应用分析等)的本质区别是:数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未先前未知知、有效有效和可实用可实用三个特征。66山东大学管理学院三、数据挖掘概述3、数据挖掘与知识发现 与数据挖掘相近的词有知识发现知识发现、数据融合数据融合、数数据分析据分析和决策支持决策支持等。67山东大学管理学院三、数据挖掘概述6

40、8山东大学管理学院三、数据挖掘概述4、在何种数据上进行数据挖掘-空间数据库空间数据库n空间数据库是指在关系型数据库(DBMS)内部对地理信息进行物理存储。空间数据库中存储的海量数据包括对象的空间拓扑特征、非空间属性特征以及对象在时间上的状态变化。n常见的空间数据库数据类型q地理信息系统(GIS)q遥感图像数据q医学图像数据n数据挖掘技术的应用:通过空间分类和空间趋势分析,引入机器学习算法,对有用模式进行智能检索69山东大学管理学院三、数据挖掘概述4、在何种数据上进行数据挖掘-时间数据库和时间序列数据库时间数据库和时间序列数据库n时间数据库和时序数据库都存放与时间有关的数据。时间数据库通常存放包

41、含时间相关属性的数据。时序数据库存放随时间变化的值序列。n对时间数据库和时序数据库的数据挖掘,可以通过研究事物发生发展的过程,有助于揭示事物发展的本质规律,可以发现数据对象的演变特征或对象变化趋势。70山东大学管理学院三、数据挖掘概述4、在何种数据上进行数据挖掘-流数据流数据n与传统的数据库技术中的静态数据不同,流数据是连续的、有序的、变化的、快速的、大量的数据输入的数据。n主要应用场合q网络监控q网页点击流q股票市场q流媒体等等n与传统数据库技术相比,流数据在存储、查询、访问、实时性的要求等方面都有很大区别。71山东大学管理学院三、数据挖掘概述4、在何种数据上进行数据挖掘-多媒体数据库多媒体

42、数据库n多媒体数据库实现用计算机管理庞大复杂的多媒体数据,主要包括包括图形(graphics)、图象(image)、声音(audio)、视频(video)等等,现代数据库技术一般将这些多媒体数据以二进制大对象的形式进行存储。n对于多媒体数据库的数据挖掘,需要将存储和检索技术相结合。目前的主要方法包括构造多媒体数据立方体、多媒体数据库的多特征提取和基于相似性的模式匹配。72山东大学管理学院三、数据挖掘概述4、在何种数据上进行数据挖掘-面向对象数据库和对象面向对象数据库和对象-关系数据库关系数据库n面向对象数据库是面向对象技术和数据库技术结合的产物,该技术对数据以对象的形式进行存储,并在这个基础上

43、实现了传统数据库的功能,包括持久性、并发控制、可恢复性、一致性和查询数据库的能力等。n对象关系数据库基于对象关系模型构造,该模型通过处理复杂对象的丰富数据类型和对象定位等功能,扩充关系模型。n面向对象数据库和对象关系数据库中的数据挖掘会涉及一些新的技术,比如处理复杂对象结构、复杂数据类型、类和子类层次结构、构造继承以及方法和过程等等。73山东大学管理学院三、数据挖掘概述74山东大学管理学院三、数据挖掘概述5、数据挖掘的功能通常,用户并不知道在数据中能挖掘出什么东西,对此我们会在数据挖掘中应用一些常用的数据挖掘功能,挖掘出一些常用的模式,包括:q概念描述:特征性描述和区别性描述q关联分析q分类与

44、预测q聚类分析q趋势分析q孤立点分析q偏差分析 总体上可以分为两类:Predication 用历史预测未来 Description 了解数据中潜在的规律75山东大学管理学院三、数据挖掘概述5、数据挖掘的功能 (1 1)概念描述概念描述对某类对象的内涵进行描述,并概括这类对象的有关特征。-特征性描述:描述某类对象的共同特征。例:对某公司的“大客户”(年消费额¥5000以上)的特征性描述为4050岁,有固定职业,信誉良好,等等。-区别性描述:描述不同类对象之间的区别。例:76山东大学管理学院三、数据挖掘概述5、数据挖掘的功能 (2 2)关联分析关联分析若两个或多个变量间存在着某种规律性,就称为关联

45、。关联分析的目的就是找出数据中隐藏的规律。广泛的用于购物篮或事务数据分析。例:77山东大学管理学院三、数据挖掘概述5、数据挖掘的功能 (3 3)分类与预测分类与预测分类分类:依照所分析对象的属性分门别类、加以定义、建立类组。例:根据给定的分类规则可以将信用卡申请人可分为低、中、高风险群。预测预测:利用历史数据建立模型,再运用最新数据作为输入值,获得未来变化的趋势或者评估给定样本可能具有的属性值或值的范围。例:根据已有客户数据模型,可以预测将来客户的消费行为。78山东大学管理学院三、数据挖掘概述5、数据挖掘的功能 (4 4)聚类分析聚类分析 客观的按被处理对象的特征分类,将有相同特征的对象归为一

46、类。也就是,将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。例:对在一个商场购买力较大的顾客居住地进行聚类分析,以帮助商场针对相应顾客群采取有针对性的营销策略。最大化类内的相似性和最小化类间的相似性最大化类内的相似性和最小化类间的相似性 分类与聚类的区别:分类与聚类的区别:分类中分类规则需要预先定义类别和训练样本,而聚类分析直接面向源数据,所有记录根据彼此相似程度来归类。79山东大学管理学院三、数据挖掘概述5、数据挖掘的功能 (5 5)趋势分析趋势分析趋势分析又称为时间序列分析,是从相当长的时间的发展中发现规律和趋势。例:根据过去几年的股票市场(时间序列)数据,用趋势分析可以发现

47、整个股票市场或某支股票的变化规律。如:它可以导出类似“若AT&T股票连续上涨两天且DEC股票不下跌,则第三天IBM股票上涨的可能性为75%”的数据关系。80山东大学管理学院三、数据挖掘概述5、数据挖掘的功能 (6 6)孤立点分析孤立点分析 孤立点孤立点:数据库中包含的一些与数据的一般行为或模型不一致的数据。通常孤立点被作为“噪音”或异常被丢弃,但在欺骗检测中却可以通过对罕见事件进行孤立点分析而得到结论。应用:应用:信用卡欺诈检测移动电话欺诈检测客户划分医疗分析(异常)81山东大学管理学院三、数据挖掘概述5、数据挖掘的功能 (7 7)偏差分析偏差分析 偏差分析又称为比较分析,是对差异和极端特例的

48、描述,揭示事物偏离常规的异常现象。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差量值随时间的变化等。82山东大学管理学院三、数据挖掘概述83山东大学管理学院三、数据挖掘概述6、数据挖掘系统的分类(2)根据挖掘的知识类型根据挖掘的知识类型特征分析,关联分析,分类聚类,孤立点分析,趋势分析,偏差分析等等。(3)根据挖掘所用的技术根据挖掘所用的技术面向数据库的挖掘、数据仓库、OLAP、机器学习、统计学、可视化等。(4)根据应用分类根据应用分类金融,电信,银行,欺诈分析,DNA分析,股票市场,Web挖掘等等。84山东大学管理学院三、数据挖掘概述7、数据挖掘常用

49、技术数据挖掘常用技术 (1)数据挖掘算法是数据挖掘技术的一部分。(2)数据挖掘技术用于执行数据挖掘功能。(3)一个特定的数据挖掘功能只适用于给定的领域。按照上述思想,数据挖掘技术主要包含以下几种:85山东大学管理学院三、数据挖掘概述7、数据挖掘常用技术(1)聚类检测方法聚类检测方法 聚类检测也称为无指导的知识发现或无监督学习,聚类生成的组叫簇,簇是数据对象的集合。聚类检测就是使同一个簇内的任意两个对象之间具有较高的相似性,不同簇的两个对象之间具有较高的相异性。聚类检测方法有:划划分分的的方方法法、层层次次的的方方法法、基基于于密密度度的的方方法法、基于网基于网络络的方法的方法和基于基于模型的方

50、法模型的方法等。客户细分 市场细分86山东大学管理学院三、数据挖掘概述7、数据挖掘常用技术(2)决策树方法决策树方法 应用于分类和预测,提供了一种展示在什么条件下会得到什么值这类规则的方法。一个决策树表示一系列的问题,每个问题决定了继续下去的问题会是什么。决策树的基本组成包括决策节点、分支和叶子。适合于处理非数值型数据,需要在生成决策树后再对决策树进行剪枝处理,最后将决策树转化为规则,用于对新事例进行分类。Debt$40K 倾向性分析87山东大学管理学院三、数据挖掘概述7、数据挖掘常用技术(3)人工神经网络方法人工神经网络方法 主要用于分类、聚类、特征挖掘、预测等方面。通过向一个训练数据集学习

51、和应用所学知识生成分类和预测的模式。神经网络的结构分为输入层、输出层和隐含层(中间层)。人工神经网络方法:前馈式网络、反馈式网络和自组织网络。Q QQ QQ QQ QII123456factor 1factor 2factor n 倾向性分析 客户保留 目标市场 欺诈检测88山东大学管理学院三、数据挖掘概述7、数据挖掘常用技术(4)关联分析方法关联分析方法 适合于从关系中挖掘知识。包含关联发现、序列模式发现和类似的时序发现等。-关联发现算法:得到关联规则、找出关联组合,在关联组合中,如果出现某一项,则另一项也会出现。-序列模式发现算法:发现在时间序列上,一个项目集之后的项目集是什么,即找到时间

52、上连续的事件。-类似的时序发现算法:先找到一个事件顺序,再推测出其他类似的事件顺序。市场组合分析 套装产品分析 目录设计 交叉销售89山东大学管理学院三、数据挖掘概述7、数据挖掘常用技术(5)遗传算法遗传算法 模仿人工选择培育良种的思路,从一个初始规则集合开始,迭代的通过交换对象成员(杂交、基因突变)产生群体(繁殖),评估并择优复制逐代积累计算,最终得到最有价值的知识集。遗传算法基本算子:繁殖、交叉和变异。信号处理 人工生命 自适应控制90山东大学管理学院三、数据挖掘概述7、数据挖掘常用技术(6)基于记忆的推理算法基于记忆的推理算法 使用一个模型的已知实例来预测未知的实例。3个关键问题:-选择

53、合适的历史记录形成基本数据集;-找出构成历史记录的最好方法;-解决如何找到“最好的”邻居。OpenAccntAdd NewProductDecreaseUsage?Time 客户保留 客户生命周期管理 目标市场91山东大学管理学院三、数据挖掘概述8、数据挖掘的过程(1)确定业务对象(2)数据准备:数据的选择、数据的预处理和数据的转换。(3)数据挖掘(4)结果分析及知识同化92山东大学管理学院三、数据挖掘概述9、数据挖掘应用领域 金融业金融业对账户进行信用等级的评估分析信用卡的使用模式进行股票分析探测金融政策与行情间的关系93山东大学管理学院三、数据挖掘概述9、数据挖掘应用领域保险业保险业保险金

54、的确定险种关联分析其他预测94山东大学管理学院三、数据挖掘概述9、数据挖掘应用实例零售业零售业分析顾客的购买行为和习惯分析商场的销售商品的构成其他应用95山东大学管理学院三、数据挖掘概述9、数据挖掘应用领域科学研究科学研究自然科学社会科学其他应用96山东大学管理学院三、数据挖掘概述9、数据挖掘应用领域其他领域其他领域医疗司法工业部门97山东大学管理学院三、数据挖掘概述9、数据挖掘应用领域l 在对客户进行分析方面:银行信用卡和保险行业,利用数据挖掘将市场分成有意义的群组和部门,从而协助市场经理和业务执行人员更好地集中于有促进作用的活动和设计新的市场运动。l在客户关系管理方面:数据挖掘能找出产品使

55、用模式或协助了解客户行为,从而可以改进渠道管理(如银行分支和ATM等)。正确时间销售(Right Time Marketing)就是基于顾客生活周期模型来实施的。98山东大学管理学院三、数据挖掘概述9、数据挖掘应用领域l在零售业方面:数据挖掘用于顾客购货篮的分析可以协助货架布置,促销活动时间,促销商品组合以及了解滞销和畅销商品状况等商业活动。通过对一种厂家商品在各连锁店的市场共享分析,客户统计以及历史状况的分析,可以确定销售和广告业务的有效性。l在产品质量保证方面:数据挖掘协助管理大数量变量之间的相互作用,并能自动发现出某些不正常的数据分布,揭示制造和装配操作过程中变化情况和各种因素,从而协助

56、质量工程师很快地注意到问题发生范围和采取改正措施。99山东大学管理学院三、数据挖掘概述9、数据挖掘应用领域l在远程通讯方面:基于数据挖掘的分析协助组织策略变更以适应外部世界的变化,确定市场变化模式以指导销售计划。在网络容量利用方面,数据挖掘能提供对客户聚集服务使用的结构和模式的了解,从而指导容量计划人员对网络设施作出最佳投资决策。l在各个企事业部门,数据挖掘在假伪检测及险灾评估、失误回避、资源分配、市场销售预测广告投资等很多方面,起着很重要作用。例如在化学及制药行业,将数据挖掘用于巨量生物信息可以发现新的有用化学成分;在遥感领域针对每天从卫星上及其它方面来的巨额数据,对气象预报、臭氧层监测等能

57、起很大作用。100山东大学管理学院三、数据挖掘概述10、数据挖掘的发展趋势没有广泛应用的原因:没有广泛应用的原因:-技术的研究和开发已经很前沿-数据挖掘应用面已经扩充了很多-预期收益不明显?-是一种增值服务-认为高不可攀,所以不去过问-是一门年轻的技术,需要不断和实际结合,解决现实问题国内应用主要问题:国内应用主要问题:-数据积累不充分、不全面 -业务模型构建困难 -缺少有经验的实施者101山东大学管理学院三、数据挖掘概述数据数据挖掘挖掘客户分析析基分因其他其他保险客户证券客户银行客户电信客户零售客户信用卡信用卡储蓄卡储蓄卡存折存折按揭按揭借贷借贷人类基因植物基因动物基因特殊群体基因基因序列基

58、因序列基因表达谱基因表达谱基因功能基因功能基因制药基因制药 .数据挖掘中国内地市场规模未来五年内将达百亿102山东大学管理学院三、数据挖掘概述10、数据挖掘的发展趋势(1)研究方向-专门用于知识发现的形式化和标准化的数据挖掘语言;-数据挖掘过程中的便于用户理解的及人机交互的可视化方法;-网络环境下的数据挖掘技术;-加强对各种非结构化数据的挖掘。103山东大学管理学院三、数据挖掘概述10、数据挖掘的发展趋势(2)应用的热点-网站的数据挖掘-生物信息或基因的数据挖掘-文本的数据挖掘104山东大学管理学院小结 1、商务智能的提出;商务智能的核心技术及其架构;商务智能的应用现状。2、数据库技术的发展;OLTP与OLAP;数据仓库的产生;数据仓库的定义;、数据仓库的发展;我国数据仓库的发展;数据仓库与数据挖掘的关系。3、数据挖掘的产生;数据挖掘的定义;数据挖掘与知识发现;在何种数据上进行数据挖掘;数据挖掘的功能;数据挖掘系统的分类;数据挖掘常用技术;数据挖掘的过程;数据挖掘应用实例;数据挖掘的发展趋势。105山东大学管理学院作业 查找并分析一个数据仓库或数据挖掘方面应用的案例,包括应用背景、使用的挖掘技术、应用效果等。演讲完毕,谢谢观看!

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!