第10章 数据库新进展

上传人:仙*** 文档编号:43445008 上传时间:2021-12-02 格式:PPT 页数:53 大小:140.50KB
收藏 版权申诉 举报 下载
第10章 数据库新进展_第1页
第1页 / 共53页
第10章 数据库新进展_第2页
第2页 / 共53页
第10章 数据库新进展_第3页
第3页 / 共53页
资源描述:

《第10章 数据库新进展》由会员分享,可在线阅读,更多相关《第10章 数据库新进展(53页珍藏版)》请在装配图网上搜索。

1、电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案) 第十章第十章 数据库新进展数据库新进展10.1 数据库技术的研究与发展数据库技术的研究与发展10.2 数据仓库与数据挖掘数据仓库与数据挖掘 10.3 XML数据管理数据管理 领域知识拓展领域知识拓展 电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案) 10.1 数据库技术的研究与发展数据库技术的研究与发展 从从20世纪世纪80年代起,数据库技术在商业领域取得了巨大年代起,数据库技术在商业领域取得了巨大的成功,刺激了其他领域对数据库技术需求的迅速增长。的成功,刺激了其他领域对数据库技术需求的迅速增长。

2、 一方面,新的数据库应用领域,如工程数据库、时态数一方面,新的数据库应用领域,如工程数据库、时态数据库、统计数据库、科学数据库、空间数据库等,为数据库、统计数据库、科学数据库、空间数据库等,为数据库应用开辟了新天地。据库应用开辟了新天地。 另一方面,计算机技术的发展也不断地与数据库技术相另一方面,计算机技术的发展也不断地与数据库技术相结合,新的数据库系统不断诞生,如分布式数据库、多结合,新的数据库系统不断诞生,如分布式数据库、多媒体数据库、模糊数据库、并行数据库等。媒体数据库、模糊数据库、并行数据库等。 电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案) 10.1.1 数

3、据库技术的发展 (1)20世纪世纪60年代后期,人们主要利用文件系统来生成各种年代后期,人们主要利用文件系统来生成各种报告。大量的文件使得维护和开发的复杂性提高,数据同报告。大量的文件使得维护和开发的复杂性提高,数据同步困难,对数据库技术的研究要求迫切。在科研人员的努步困难,对数据库技术的研究要求迫切。在科研人员的努力下推出了第一代数据库系统,即层次数据库和网状数据力下推出了第一代数据库系统,即层次数据库和网状数据库。库。(2)20世纪世纪70年代,关系数据库之父年代,关系数据库之父E. F. Codd提出了关系提出了关系数据模型。此后,关系数据库技术日趋成熟,并开始商业数据模型。此后,关系数

4、据库技术日趋成熟,并开始商业应用。应用。70年代后期,高性能的联机事务处理(年代后期,高性能的联机事务处理(On-Line Transaction Processing,OLTP)开始应用。)开始应用。 电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案) 数据库技术的发展(3)20世纪世纪80年代,随着数据库技术的成熟,联机事务处理年代,随着数据库技术的成熟,联机事务处理OLTP、管理信息系统(、管理信息系统(Management Information System,MIS)和决策支持系统()和决策支持系统(Decision Support System,DSS)不断发

5、展,对数据集成和数据分析要求越来越高,逐步提不断发展,对数据集成和数据分析要求越来越高,逐步提出了出了“数据仓库数据仓库”(Data Warehouse)思想。代表是)思想。代表是IBM的的“Information Warehouse”。(4)20世纪世纪90年代,数据库应用领域不断拓展,新概念和新年代,数据库应用领域不断拓展,新概念和新技术不断涌现,有面向对象数据库、分布式数据库、并行技术不断涌现,有面向对象数据库、分布式数据库、并行数据库、主动数据库、知识库、模糊数据库、工程数据库数据库、主动数据库、知识库、模糊数据库、工程数据库等。数据仓库成为研究热点,有力地推动了相关研究的进等。数据仓

6、库成为研究热点,有力地推动了相关研究的进展,如联机分析处理(展,如联机分析处理(On-Line Analytical Processing,OLAP)、数据挖掘()、数据挖掘(Data Mining,DM)和联机分析挖)和联机分析挖掘(掘(On-Line Analytical Mining,OLAM)。)。 电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案) 数据库技术的发展(5)进入)进入21世纪后,数据仓库与数据挖掘研究领域世纪后,数据仓库与数据挖掘研究领域发展迅速。数据类型日益复杂,日益进步的硬件发展迅速。数据类型日益复杂,日益进步的硬件和网络环境,特别是和网络环境

7、,特别是Internet和和Web技术的迅速发技术的迅速发展,拓展了数据库的研究领域。展,拓展了数据库的研究领域。Web数据管理、数据管理、流数据管理、智能数据库、内存数据库、无线传流数据管理、智能数据库、内存数据库、无线传感器网络数据管理、移动数据库等成为新的研究感器网络数据管理、移动数据库等成为新的研究领域。领域。 电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案) 当今的数据库系统是一个大家族,数据模型丰富当今的数据库系统是一个大家族,数据模型丰富多样,新技术层出不穷,应用领域十分广泛。多样,新技术层出不穷,应用领域十分广泛。 按照数据库技术的脉络,可从数据模型、与

8、其他按照数据库技术的脉络,可从数据模型、与其他计算机技术的结合、应用领域这三个角度来总结计算机技术的结合、应用领域这三个角度来总结当前数据库技术发展的特点。当前数据库技术发展的特点。10.1.2 数据库发展的特点电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案) 1. 数据模型丰富多样 数据模型是数据库系统的核心与基础。数据模型的发数据模型是数据库系统的核心与基础。数据模型的发展经历了最初的层次模型、网状模型到关系模型。展经历了最初的层次模型、网状模型到关系模型。 关系模型的提出是数据库发展史上具有划时代意义的关系模型的提出是数据库发展史上具有划时代意义的重大事件。至今,

9、关系数据库系统仍是数据库领域应重大事件。至今,关系数据库系统仍是数据库领域应用最普遍的。用最普遍的。 随着数据库应用领域的扩展,数据库管理的数据类型随着数据库应用领域的扩展,数据库管理的数据类型越来越复杂,传统关系数据模型暴露出许多弱点,如越来越复杂,传统关系数据模型暴露出许多弱点,如对复杂对象表示能力较差、语义表达能力较弱、缺乏对复杂对象表示能力较差、语义表达能力较弱、缺乏灵活的建模能力等,对文本、时间、空间、多媒体、灵活的建模能力等,对文本、时间、空间、多媒体、半结构化的半结构化的HTML和和XML等类型的数据处理能力差等。等类型的数据处理能力差等。为此,一些新的数据模型被提出,形成了当今

10、数据库为此,一些新的数据模型被提出,形成了当今数据库领域丰富多样的数据模型。领域丰富多样的数据模型。 电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案) 复杂数据模型 对传统关系模型(对传统关系模型(1NF)扩充,使其能表达)扩充,使其能表达比较复杂的数据类型,支持比较复杂的数据类型,支持“表中表表中表”,这,这样的数据模型称为复杂数据模型。如样的数据模型称为复杂数据模型。如U. C. Berkeley研制的研制的POSTGRES系统,它支持关系统,它支持关系之间的继承,也支持在关系上定义函数和系之间的继承,也支持在关系上定义函数和运算符。运算符。 电子工业出版社(数据库

11、基础教程(SQL Server平台)配套电子教案) 语义数据模型 提出全新的数据构造器和数据处理原语,以表达复杂提出全新的数据构造器和数据处理原语,以表达复杂的结构和丰富的语义。其特点是蕴含了丰富的语义关的结构和丰富的语义。其特点是蕴含了丰富的语义关联,能更自然地表示客观世界实体间的联系。联,能更自然地表示客观世界实体间的联系。 这类模型较有代表性的有函数数据模型(这类模型较有代表性的有函数数据模型(FDM)、语)、语义数据模型(义数据模型(SDM)等。)等。 由于这类模型比较复杂,在程序设计语言和其他技术由于这类模型比较复杂,在程序设计语言和其他技术方面缺乏相应支持,因此都没有在方面缺乏相应

12、支持,因此都没有在DBMS实现方面有实现方面有重大突破。重大突破。 电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案) 面向对象数据模型吸收了面向对象方法学的核心概念和面向对象数据模型吸收了面向对象方法学的核心概念和思想,用面向对象方法来描述现实世界中实体的逻辑组思想,用面向对象方法来描述现实世界中实体的逻辑组织、对象间限制、联系等。织、对象间限制、联系等。 对象数据模型是具有丰富语义的数据模型,可描述对象对象数据模型是具有丰富语义的数据模型,可描述对象的语义特征,包括命名、标识、联系、对象层次结构、的语义特征,包括命名、标识、联系、对象层次结构、对象的继承和多态特性等。

13、对象的继承和多态特性等。 面向对象数据库早期的标准化组织是面向对象数据库早期的标准化组织是ODMG(Object Data Management Group),),ODMG推出了推出了1.03.0标准。标准。目前,目前,OGM(Object Management Group)继续进行第)继续进行第4代对象数据库标准研究工作。代对象数据库标准研究工作。 面向对象数据模型 电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案) 对象关系数据模型 它是关系模型与对象模型的结合,在关系数据库的基它是关系模型与对象模型的结合,在关系数据库的基础上扩展了对象模型的某些特征。因此,既保持了

14、关础上扩展了对象模型的某些特征。因此,既保持了关系数据库系统的非过程化数据存取特性和其他优势,系数据库系统的非过程化数据存取特性和其他优势,又能支持对象数据管理,得到了多数数据库厂商的支又能支持对象数据管理,得到了多数数据库厂商的支持。持。 SQL3标准也提出了面向对象的扩展,扩展了面向对标准也提出了面向对象的扩展,扩展了面向对象的数据类型,如象的数据类型,如ROW TYPE和抽象数据类型等。和抽象数据类型等。 电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案) XML数据模型 随着随着Internet和和Web应用的普及,越来越多的应用都将应用的普及,越来越多的应用都将

15、数据表示为数据表示为XML形式,形式,XML已成为网络数据交换的标已成为网络数据交换的标准。因此,当前准。因此,当前DBMS都扩展了对都扩展了对XML的处理,支持的处理,支持XML数据类型,支持数据类型,支持XML与关系数据之间的相互转换。与关系数据之间的相互转换。由于由于XML数据模型不同于关系模型和对象模型,故其数据模型不同于关系模型和对象模型,故其灵活性和复杂性导致了许多新问题的出现。灵活性和复杂性导致了许多新问题的出现。 XML数据管理技术已成为数据库、信息检索等领域的数据管理技术已成为数据库、信息检索等领域的研究热点。目前还没有统一的研究热点。目前还没有统一的XML数据模型,已提出数

16、据模型,已提出的的XML模型包括模型包括XPath Data Model、DOM Model、XML Information Set和和XML Query Data Model。 电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案) 半结构数据模型 目前目前Web中大多数数据都是半结构化的或无结构的。中大多数数据都是半结构化的或无结构的。随着随着Web的迅速发展,海量的的迅速发展,海量的Web数据已成为一种新数据已成为一种新的重要信息资源,对的重要信息资源,对Web数据进行有效的访问与管理数据进行有效的访问与管理成为数据库领域面临的新课题。成为数据库领域面临的新课题。 半结

17、构化数据存在一定的结构,但这些结构或者没有半结构化数据存在一定的结构,但这些结构或者没有被清晰地描述,或者是经常动态变化的,或者过于复被清晰地描述,或者是经常动态变化的,或者过于复杂不能被传统的模式定义表示。所以,必须针对半结杂不能被传统的模式定义表示。所以,必须针对半结构化数据的特点,研究其数据模型和描述方式。构化数据的特点,研究其数据模型和描述方式。 目前,对半结构化数据的描述方式主要有基于逻辑的目前,对半结构化数据的描述方式主要有基于逻辑的描述和基于图的描述两种。描述和基于图的描述两种。 电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案) 2. 数据库技术与相关学科

18、技术有机结合 各种学科技术与数据库技术有机结合,包括:各种学科技术与数据库技术有机结合,包括:数据库技术与分布处理技术相结合,出现了分布式数据系统;数据库技术与分布处理技术相结合,出现了分布式数据系统;数据库技术与并行处理技术相结合,出现了并行数据库系统;数据库技术与并行处理技术相结合,出现了并行数据库系统;数据库技术与人工智能技术相结合,出现了知识库系统和主数据库技术与人工智能技术相结合,出现了知识库系统和主动数据库系统;动数据库系统;数据库技术与多媒体技术相结合,出现了多媒体数据库系统;数据库技术与多媒体技术相结合,出现了多媒体数据库系统;数据库技术与模糊技术相结合,出现了模糊数据库系统;

19、数据库技术与模糊技术相结合,出现了模糊数据库系统;数据库技术与移动通信技术相结合,出现了移动数据库系统数据库技术与移动通信技术相结合,出现了移动数据库系统等。等。电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案) 3. 数据库技术与特定应用领域有机结合 数据库技术应用到特定领域中,与应用领域有机结合,数据库技术应用到特定领域中,与应用领域有机结合,出现了数据仓库、工程数据库、演绎数据库、统计数据出现了数据仓库、工程数据库、演绎数据库、统计数据库、空间数据库和科学数据库等多种数据库,使数据库库、空间数据库和科学数据库等多种数据库,使数据库的应用范围不断扩大,为数据库技术增添

20、了新的技术内的应用范围不断扩大,为数据库技术增添了新的技术内涵。涵。 面向特定领域的数据库系统,也称为特种数据库系统或面向特定领域的数据库系统,也称为特种数据库系统或专用数据库系统。这些数据库系统虽然采用不同的数据专用数据库系统。这些数据库系统虽然采用不同的数据模型,但都带有明显的对象模型特征。在具体实现时,模型,但都带有明显的对象模型特征。在具体实现时,有的是对关系数据库系统进行扩充,有的则是重新设计有的是对关系数据库系统进行扩充,有的则是重新设计与开发的。与开发的。电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案) 10.1.3 数据库技术的研究方向 随着计算机软、硬

21、件技术的进步、随着计算机软、硬件技术的进步、Internet和和Web技术技术的发展,数据库系统所管理的数据以及应用环境发生了的发展,数据库系统所管理的数据以及应用环境发生了很大变化,数据库技术面临着新的挑战。很大变化,数据库技术面临着新的挑战。 主要表现在:新的数据源不断出现,数据类型越来越多、主要表现在:新的数据源不断出现,数据类型越来越多、数据结构越来越复杂、数据量越来越大,对数据使用的数据结构越来越复杂、数据量越来越大,对数据使用的安全性提高,对数据库理解和知识获取的要求增加。安全性提高,对数据库理解和知识获取的要求增加。 这些新的挑战性问题必将推动数据库技术的进一步发展。这些新的挑战

22、性问题必将推动数据库技术的进一步发展。 电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案) 1. 面向对象数据库 面向对象数据库系统支持面向对象数据模型。可以将一面向对象数据库系统支持面向对象数据模型。可以将一个面向对象数据库系统看做一个持久的、可共享的对象个面向对象数据库系统看做一个持久的、可共享的对象库的存储者和管理者。库的存储者和管理者。 面向对象数据库支持面向对象技术中的对象与类、继承面向对象数据库支持面向对象技术中的对象与类、继承和多态特性。它将数据作为能自动重新得到和共享的对和多态特性。它将数据作为能自动重新得到和共享的对象存储,包含在对象中的是完成每一项数据

23、库事务的处象存储,包含在对象中的是完成每一项数据库事务的处理指令。这些对象可能包含不同类型的数据,包括传统理指令。这些对象可能包含不同类型的数据,包括传统的数据和处理过程,也包括声音、图像和视频等数据。的数据和处理过程,也包括声音、图像和视频等数据。对象可以共享和重用。对象可以共享和重用。 电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案) 2. 分布式数据库 分布式数据库是指物理上分散在网络各节点上、而逻分布式数据库是指物理上分散在网络各节点上、而逻辑上属于同一个系统的数据集合。辑上属于同一个系统的数据集合。 它具有数据的分布性和数据库间的逻辑协调性两大特它具有数据的分

24、布性和数据库间的逻辑协调性两大特点。分布性是指数据不是存放在单个计算机的存储设点。分布性是指数据不是存放在单个计算机的存储设备上,而是按全局需要将数据划分为一定结构的数据备上,而是按全局需要将数据划分为一定结构的数据子集,分散地存储在各个节点上。逻辑协调性是指各子集,分散地存储在各个节点上。逻辑协调性是指各场地上的数据子集相互间由严密的约束规则加以限定,场地上的数据子集相互间由严密的约束规则加以限定,而逻辑上是一个整体。而逻辑上是一个整体。电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案) 3. 多媒体数据库 多媒体是指多种媒体,如数字、字符、文本、图形、多媒体是指多种媒

25、体,如数字、字符、文本、图形、图像、声音和视频等的有机集成。其中数字、字符等图像、声音和视频等的有机集成。其中数字、字符等称为格式化数据,文本、图形、图像、声音和视频等称为格式化数据,文本、图形、图像、声音和视频等称为非格式化数据。多媒体数据具有数据量大、处理称为非格式化数据。多媒体数据具有数据量大、处理复杂等特点。复杂等特点。 多媒体数据库实现对格式化和非格式化的多媒体数据多媒体数据库实现对格式化和非格式化的多媒体数据的存储、管理和查询,使数据库能够表示和处理多媒的存储、管理和查询,使数据库能够表示和处理多媒体数据。体数据。 电子工业出版社(数据库基础教程(SQL Server平台)配套电子

26、教案) 4. 并行数据库 并行数据库是数据库技术与并行处理技术相结合的产物。并行数据库是数据库技术与并行处理技术相结合的产物。并行数据库发挥多处理机结构的优势,将数据库分布存并行数据库发挥多处理机结构的优势,将数据库分布存储,利用多个处理机对数据进行并行处理,从而解决储,利用多个处理机对数据进行并行处理,从而解决I/O瓶颈问题。通过采用先进的并行查询技术,开发查询间瓶颈问题。通过采用先进的并行查询技术,开发查询间并行、查询内并行以及操作内并行,可大大提高查询效并行、查询内并行以及操作内并行,可大大提高查询效率。率。 并行数据库的目标是提供一个高性能、高可用性、高扩并行数据库的目标是提供一个高性

27、能、高可用性、高扩展性的数据库系统,并且性价比比相应大型机上的展性的数据库系统,并且性价比比相应大型机上的DBMS高得多。高得多。 电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案) 5. 知识数据库 知识数据库是知识、经验、规则和事实的集合。知识知识数据库是知识、经验、规则和事实的集合。知识数据库系统的功能是把大量的事实、规则和概念组成数据库系统的功能是把大量的事实、规则和概念组成的知识存储起来,进行管理,并向用户提供方便快速的知识存储起来,进行管理,并向用户提供方便快速的查询手段。的查询手段。 知识数据库系统应具备对知识的表示方法、对知识系知识数据库系统应具备对知识的

28、表示方法、对知识系统化的组织管理、知识库的维护、知识的获取与学习、统化的组织管理、知识库的维护、知识的获取与学习、知识库的查询等功能。知识数据库系统是数据库技术知识库的查询等功能。知识数据库系统是数据库技术与人工智能的结合。与人工智能的结合。 电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案) 6. 模糊数据库 模糊数据库的目标是使数据库能够存储以各种形式表示模糊数据库的目标是使数据库能够存储以各种形式表示的模糊数据。的模糊数据。 模糊数据库系统是数据库技术与模糊技术的结合。模糊数据库系统是数据库技术与模糊技术的结合。 模糊数据库技术近年来在一些领域得到了一定的应用,模糊

29、数据库技术近年来在一些领域得到了一定的应用,如医疗诊断、工程设计、过程控制、案情侦破等,显示如医疗诊断、工程设计、过程控制、案情侦破等,显示了其良好的应用前景。了其良好的应用前景。电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案) 7. 移动数据库 移动数据库是指支持移动计算环境的数据库。移动数据库是指支持移动计算环境的数据库。 它使得计算机或其他信息设备在没有固定的物理连接设它使得计算机或其他信息设备在没有固定的物理连接设备相连的情况下,能够传输数据。备相连的情况下,能够传输数据。 移动计算的作用在于,将有用、准确、及时的信息与中移动计算的作用在于,将有用、准确、及时的

30、信息与中央信息系统相互作用,分担中央信息系统的计算压力,央信息系统相互作用,分担中央信息系统的计算压力,使信息能及时地提供给在任何时间和地点需要它的用户。使信息能及时地提供给在任何时间和地点需要它的用户。 电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案) 8. 专用数据库 在地理、气象、科学、统计、工程等应用领域,数据库在地理、气象、科学、统计、工程等应用领域,数据库要适用于不同的环境,解决不同的问题。要适用于不同的环境,解决不同的问题。 在这些领域应用的数据管理完全不同于商业事务管理,在这些领域应用的数据管理完全不同于商业事务管理,并日益显示其重要性和迫切性。并日益显

31、示其重要性和迫切性。 工程数据库、科学数据库、统计数据库、空间数据库等工程数据库、科学数据库、统计数据库、空间数据库等专用数据库近年来得到了很大发展,在相应的应用领域专用数据库近年来得到了很大发展,在相应的应用领域有的已经得到了较好的应用。有的已经得到了较好的应用。 电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案) 9. 数据库中的知识发现人工智能与数据库技术相结合,促进了数据库中知人工智能与数据库技术相结合,促进了数据库中知识发现(识发现(Knowledge Discovery from Data,KDD)的研究。的研究。用数据库作为知识源,把逻辑学、统计学、机器学用

32、数据库作为知识源,把逻辑学、统计学、机器学习、模糊学、数据分析、可视化计算等学科成果综习、模糊学、数据分析、可视化计算等学科成果综合在一起,进行从数据库中发现知识的研究,使得合在一起,进行从数据库中发现知识的研究,使得数据库不仅能查询存放在数据库中的数据,而且上数据库不仅能查询存放在数据库中的数据,而且上升到对数据库中数据的整体特征的认识,获得与数升到对数据库中数据的整体特征的认识,获得与数据库中数据相吻合的中观或宏观的知识。据库中数据相吻合的中观或宏观的知识。在这个领域,目前研究的热点集中在数据仓库和数在这个领域,目前研究的热点集中在数据仓库和数据挖掘上。据挖掘上。 电子工业出版社(数据库基

33、础教程(SQL Server平台)配套电子教案) 数据仓库和数据挖掘是作为两种独立的信息技数据仓库和数据挖掘是作为两种独立的信息技术出现的。术出现的。 数据仓库是不同于数据库的数据组织和存储技数据仓库是不同于数据库的数据组织和存储技术,它从数据库技术发展而来并为决策服务。术,它从数据库技术发展而来并为决策服务。 数据挖掘通过对各类数据源的数据进行分析,数据挖掘通过对各类数据源的数据进行分析,获得具有一定可信度的知识。获得具有一定可信度的知识。 它们从不同侧面完成对决策过程的支持,相互它们从不同侧面完成对决策过程的支持,相互间有一定的内在联系。间有一定的内在联系。 将它们集成到一个系统中,形成基

34、于数据挖掘将它们集成到一个系统中,形成基于数据挖掘的的OLAP工具,可以更加有效地提高决策支持能工具,可以更加有效地提高决策支持能力。力。 10.2 数据仓库与数据挖掘数据仓库与数据挖掘电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案) 10.2.1 数据仓库 20世纪世纪80年代中期,数据仓库之父年代中期,数据仓库之父William H. Inmon在其在其建立数据仓库建立数据仓库(Building the Data Warehouse)一)一书中提出了数据仓库的概念。书中提出了数据仓库的概念。 电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案)

35、W. H. Inmon对数据仓库的定义如下:对数据仓库的定义如下: 数据仓库是面向主题的、集成的、相数据仓库是面向主题的、集成的、相对稳定的、反映历史变化的数据集合,对稳定的、反映历史变化的数据集合,用以支持管理决策的决定过程。这个用以支持管理决策的决定过程。这个定义说明了数据仓库中数据的组织方定义说明了数据仓库中数据的组织方式以及建立数据仓库的目的。式以及建立数据仓库的目的。 1. 数据仓库的概念 电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案) 2. 数据仓库的特点 (1)数据仓库是面向主题()数据仓库是面向主题(Subject Oriented)的。的。 (2)数

36、据仓库中的数据是集成()数据仓库中的数据是集成(Integrated)的。)的。 (3)数据仓库中的数据是相对稳定()数据仓库中的数据是相对稳定(Non-Volatile)的。)的。 (4)数据仓库反映历史变化()数据仓库反映历史变化(Time Variant) 电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案) 3. 数据仓库与传统数据库系统的比较 类别类别项项 目目 数数 据据 仓仓 库库传统数据库系统传统数据库系统数据模型数据模型关系模型、对象模型(多维模型)关系模型、对象模型(多维模型)关系模型为主(平面模型)关系模型为主(平面模型)数据内容数据内容与决策管理相关

37、的支持信息与决策管理相关的支持信息与日常事务处理有关的数据与日常事务处理有关的数据数据特性数据特性集成、详细和综合数据集成、详细和综合数据详细数据详细数据数据来源数据来源数据来源多,内外皆有数据来源多,内外皆有以内部数据为主以内部数据为主数据稳定性数据稳定性较稳定,极少更新较稳定,极少更新频繁更新频繁更新性能度量性能度量查询吞吐量查询吞吐量事务吞吐量事务吞吐量开发方法开发方法利用迭代的开发方法,按系统结构和利用迭代的开发方法,按系统结构和交叉功能的定制形式集成,以数据驱交叉功能的定制形式集成,以数据驱动为主动为主利用规范的开发方法,按功能分项利用规范的开发方法,按功能分项和具体事务管理功能集成

38、,以事件和具体事务管理功能集成,以事件驱动方式为主驱动方式为主电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案) 信息处理:支持查询和基本的统计分析,并使信息处理:支持查询和基本的统计分析,并使用图表、图或表等多种形式进行报告。数据仓用图表、图或表等多种形式进行报告。数据仓库信息处理的当前趋势是构造低代价的基于库信息处理的当前趋势是构造低代价的基于Web的访问工具,并与的访问工具,并与Web浏览器集成。浏览器集成。 分析处理:支持基本的联机分析处理(分析处理:支持基本的联机分析处理(OLAP)操作。与信息处理相比,联机分析处理的主要操作。与信息处理相比,联机分析处理的主要

39、优势是,支持数据仓库的多维数据分析。优势是,支持数据仓库的多维数据分析。 数据挖掘:支持知识发现,包括找出隐藏在数数据挖掘:支持知识发现,包括找出隐藏在数据仓库中的模式和关联,构造分析模型,进行据仓库中的模式和关联,构造分析模型,进行分类和预测,并使用可视化工具提供挖掘结分类和预测,并使用可视化工具提供挖掘结果。果。 4. 数据仓库的应用 电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案) 5. 数据仓库的构建(1)收集和分析业务需求。)收集和分析业务需求。(2)建立数据模型和数据仓库的物理设计。)建立数据模型和数据仓库的物理设计。(3)定义数据源。)定义数据源。(4)选

40、择数据仓库技术和平台。)选择数据仓库技术和平台。(5)从操作型数据库中抽取、净化和转换数据到数据仓)从操作型数据库中抽取、净化和转换数据到数据仓库。库。(6)选择访问和报表工具。)选择访问和报表工具。(7)选择数据库连接软件。)选择数据库连接软件。(8)选择数据分析和数据展示软件。)选择数据分析和数据展示软件。(9)更新数据仓库。)更新数据仓库。 电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案) 10.2.2 数据挖掘 在在20世纪世纪80年代,随着计算机技术和通信技术的年代,随着计算机技术和通信技术的迅速发展,大型数据库系统得到了广泛应用,企迅速发展,大型数据库系统得

41、到了广泛应用,企业积累的数据量急剧增加。业积累的数据量急剧增加。 然而,现有数据库系统主要进行的是事务性的处然而,现有数据库系统主要进行的是事务性的处理,不能发现数据内部隐藏的规律或规则。理,不能发现数据内部隐藏的规律或规则。 因此,人们亟需一种能从海量数据中发现潜在知因此,人们亟需一种能从海量数据中发现潜在知识的工具,以解决数据爆炸与知识贫乏的矛盾。识的工具,以解决数据爆炸与知识贫乏的矛盾。数据挖掘(数据挖掘(Data Mining,DM)技术就是在这样)技术就是在这样的背景下产生的。的背景下产生的。 电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案) 1. 数据挖掘的

42、概念 数据挖掘是从大量的、不完全的、有噪数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取潜声的、模糊的、随机的数据中,提取潜在的、有价值的模式和数据间关系(或在的、有价值的模式和数据间关系(或知识)的过程。知识)的过程。 电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案) 2. 数据挖掘的数据对象 原则上,数据挖掘可以在任何类型的信原则上,数据挖掘可以在任何类型的信息载体上进行。息载体上进行。 数据对象可以是结构化的数据源,包括数据对象可以是结构化的数据源,包括关系数据库、数据仓库及各类专业数据关系数据库、数据仓库及各类专业数据库;也可以是半结构化的数据

43、源,如文库;也可以是半结构化的数据源,如文本数据、多媒体数据库和本数据、多媒体数据库和Web数据。数据。电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案) 3. 数据挖掘发现的知识模式 分类模式分类模式 聚类模式聚类模式 时间序列模式时间序列模式 回归模式回归模式 关联模式关联模式 序列模式序列模式 电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案) 4. 数据挖掘的主要技术 (1)统计分析方法)统计分析方法 (2)决策树方法)决策树方法 (3)人工神经网络)人工神经网络 (4)遗传算法)遗传算法 (5)模糊技术)模糊技术 (6)粗糙集()粗糙集(R

44、ough Set)方法)方法 (7)可视化技术)可视化技术 电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案) 5. 数据挖掘的应用 (1)金融行业)金融行业 (2)医疗保健)医疗保健 (3)市场零售行业)市场零售行业 (4)制造业)制造业 (5)科学研究领域)科学研究领域 电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案) 10.2.3 数据仓库与数据挖掘 数据仓库和数据挖掘作为决策支持的新数据仓库和数据挖掘作为决策支持的新技术,近十几年来得到了迅速发展。技术,近十几年来得到了迅速发展。 作为数据挖掘对象,数据仓库技术的产作为数据挖掘对象,数据仓库

45、技术的产生和发展为数据挖掘技术开辟了新领域,生和发展为数据挖掘技术开辟了新领域,也提出了新的要求和挑战。也提出了新的要求和挑战。 数据仓库和数据挖掘是相互影响、相互数据仓库和数据挖掘是相互影响、相互促进的。促进的。 电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案) 数据仓库与数据挖掘(1)数据仓库为数据挖掘提供了广泛的数)数据仓库为数据挖掘提供了广泛的数据源。据源。 (2)数据仓库为数据挖掘提供了支持平台。)数据仓库为数据挖掘提供了支持平台。 (3)数据挖掘为数据仓库提供了决策支持。)数据挖掘为数据仓库提供了决策支持。 (4)数据挖掘为数据仓库提供了广泛的技)数据挖掘为

46、数据仓库提供了广泛的技术支持。术支持。 电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案) 10.3 XML数据管理数据管理 可扩展标记语言可扩展标记语言XML(eXtensible Markup Language)是)是W3C组织于组织于1998年年2月发布的标准。月发布的标准。 它是为了克服它是为了克服HTML缺乏灵活性和伸缩性缺乏灵活性和伸缩性的缺点以及的缺点以及SGML过于复杂、不利于软件过于复杂、不利于软件应用的缺点而发展起来的一种元标记语言。应用的缺点而发展起来的一种元标记语言。电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案) 10.3

47、.1 XML概述 XML是在吸取了是在吸取了HTML和和SGML优点的基优点的基础上形成的,已成为互联网上信息交换和础上形成的,已成为互联网上信息交换和表示的标准。表示的标准。 XML具有灵活的模式,可满足具有灵活的模式,可满足Web环境中环境中异构数据集成的要求。异构数据集成的要求。 电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案) 10.3.2 XML数据模型 XML数据的基本形式是数据的基本形式是XML文档。文档。 XML是一种定义是一种定义“标记标记”(Markup)的规则,)的规则,即即XML定义了标记文本或文档的一套规则,用定义了标记文本或文档的一套规则,用

48、户使用这些规则定义所需的标记。户使用这些规则定义所需的标记。 XML标记是可以扩展的,用户可以根据需要定标记是可以扩展的,用户可以根据需要定义新的标记。并且,用户可以根据需要给标记义新的标记。并且,用户可以根据需要给标记取任何名字。取任何名字。电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案) 1. XML文档 XML数据存储的最基本形式是数据存储的最基本形式是XML文档文档(Document)。)。 一个文档就是一个连续的字符流。一个文档就是一个连续的字符流。 字符流中的标记将它们分割为更小的语字符流中的标记将它们分割为更小的语义单位。义单位。 XML的标记分为的标记分

49、为5种类型:元素、属性、种类型:元素、属性、注释、处理指令和实体。注释、处理指令和实体。 电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案) 示例 【例【例10.1】创建一个用于保存人的信息的】创建一个用于保存人的信息的XML文文档(文件名为档(文件名为person.xml)。注意:每行前面的)。注意:每行前面的序号是为了便于说明而加的,不是序号是为了便于说明而加的,不是XML文档的文档的内容。内容。1:2:3:4: 李平李平5: 11/10/19866: 130333001107: 电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案) 2. XML文

50、档模式 XML文档模式用于描述文档模式用于描述XML的逻辑结构。的逻辑结构。 有两种描述有两种描述XML逻辑结构的方式:逻辑结构的方式: 文档类型定义(文档类型定义(Document Type Definition,DTD) XML模式(模式(XML Schema) 电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案) (1) 文档类型定义DTD DTD定义了文档的逻辑结构,规定了文定义了文档的逻辑结构,规定了文档中所使用的元素、实体、属性、元素档中所使用的元素、实体、属性、元素与实体间的关系等。使用与实体间的关系等。使用DTD可验证数可验证数据的有效性,保证数据交换与共享

51、的要据的有效性,保证数据交换与共享的要求。求。 DTD是一组声明,这组声明通过定义一是一组声明,这组声明通过定义一些规则来界定些规则来界定XML数据需要满足的结构数据需要满足的结构和内容的要求。和内容的要求。 电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案) 示例【例【例10.2】 对于例对于例10.1中的中的XML文档,其文档,其DTD文文档如下:档如下: 电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案) (2) XML模式(XML Schema) XML Schema是在是在DTD之后的第二代用于之后的第二代用于描述描述XML逻辑结构的标准。

52、逻辑结构的标准。 XML Schema用一套预先定义的用一套预先定义的XML元元素和属性创建,这些元素和属性定义了素和属性创建,这些元素和属性定义了XML文档的结构和内容模式。文档的结构和内容模式。 电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案) 示例 对于例对于例10.1中的中的XML文档,其文档,其XML Schema如下:如下: 电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案) 10.3.3 XML数据查询 数据查询是数据库的重要功能。数据查询是数据库的重要功能。 XML数据查询的描述形式较多,包括数据查询的描述形式较多,包括Lorel、

53、XML-QL、XML-GL、Quilt、XPath、XQuery等。等。 其中其中XPath和和XQuery是是W3C组织推荐的组织推荐的XML数据查询语言,是当前这类处理中数据查询语言,是当前这类处理中的代表性语言,在当前的代表性语言,在当前XML数据查询中数据查询中处于重要位置。处于重要位置。 电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案) XPath XPath将将XML文档看做树,将元素、属性、注文档看做树,将元素、属性、注释和文本看做树的节点。从根到每个节点都存释和文本看做树的节点。从根到每个节点都存在一个节点序列,称为节点的路径表达式。在一个节点序列,称为

54、节点的路径表达式。 XPath以以“/”分隔路径表达式中的各个节点,并分隔路径表达式中的各个节点,并允许加入路径操作符和查询谓词。允许加入路径操作符和查询谓词。 这样这样XPath路径表达式就可以进行导航式访问。路径表达式就可以进行导航式访问。电子工业出版社(数据库基础教程(SQL Server平台)配套电子教案) XQuery XQuery是是W3C开发的与开发的与SQL风格接近的风格接近的XML数据查询语言。数据查询语言。 它是一种非过程语言,其中引进了变量,使用它是一种非过程语言,其中引进了变量,使用较为灵活。较为灵活。 可查询各种可查询各种XML数据源,包括数据源,包括XML文档、文档、XML数据库以及基于对象的存储等。数据库以及基于对象的存储等。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!