数据挖掘本体模型调研

上传人:mar****e5 文档编号:188683465 上传时间:2023-02-20 格式:DOCX 页数:9 大小:49.57KB
收藏 版权申诉 举报 下载
数据挖掘本体模型调研_第1页
第1页 / 共9页
数据挖掘本体模型调研_第2页
第2页 / 共9页
数据挖掘本体模型调研_第3页
第3页 / 共9页
资源描述:

《数据挖掘本体模型调研》由会员分享,可在线阅读,更多相关《数据挖掘本体模型调研(9页珍藏版)》请在装配图网上搜索。

1、数据挖掘中引入本体论的原因:数据挖掘(Data Mining, DM)技术一直是计算机工程领域的研究热点。由 于该领域知识的不断扩充和更新,我们在使用数据挖掘过程中也遇到了一些问题。 比如:1、对于新出现的领域知识,无法实现知识自动定义及归类,而需要领域 专家的人工操作,造成定义及归类的人为差异等。2、没有一个统一的数据挖掘 领域知识管理系统用于用户的知识检索。3、当一个不具备很多领域知识的普通 用户提交一个数据挖掘任务时,可能得不到解决该挖掘任务的挖掘方法及算法的 最佳组合。本体概念演变:本体(Ontology)最早是一个哲学上的概念,从哲学的范畴来说,Ontology是 客观存在的一个系统

2、的解释或说明,关心的是客观现实的抽象本质。在人工智能 界,最早给出Ontology定义的是Neches等人,他们将Ontology定义为“给出构 成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词 汇外延的规则的定义”。1993年,Gruber给出了 Ontology的一个最为流行的定 义,即“Ontology是概念模型的明确的规范说明”。后来,Borst在此基础上,给 出了 Ontology的另外一种定义:“Ontology是共享概念模型的形式化规范说明”。 Studer等认为本体是共享概念模型的明确的形式化规范说明。本体的目标是捕获 相关领域的知识,提供对该领域知识的共

3、同理解,确定该领域内共同认可的词汇, 并从不同层次的形式化模式上给出这些词汇(术语)和词汇间相互关系的明确定义。领域本体(Domain Ontology )是专业性的本体,提供了某个专业学科领域中概 念的词表以及概念间的关系,或在该领域里占主导地位的理论。数据挖掘与本体论结合研究的现状目前本体与数据挖掘的结合研究表现有以下三个大方面。一:本体学习,即 利用数据挖掘技术来构建各种不同分类的本体。二:领域本体用于知识发现,即 构建特定领域本体应用于不同领域的知识发现中。三:数据挖掘领域知识本体, 即基于本体论来构建数据挖掘的领域知识,从而进行知识发现。本体学习本体学习技术,其目标就是利用数据挖掘技

4、术(如:机器学习和统计等技术) 自动或半自动地从已有的数据资源中获取期望的本体。针对不同的数据类型,本 体学习技术分为3大类:基于结构化数据的本体学习技术、基于非结构化数据的 本体学习技术和基于半结构化数据的本体学习技术。 基于结构化数据的本体学习技术:结构化数据主要包括关系数据库或面向 对象数据库中的数据。关系型数据库采用的是关系模型,这种模型结构通常是用 二维关系表格形式来表示。在关系数据库中,关系模式是型,元组集(即关系)是 值。与关系模型相比,本体是一种具有更多语义、结构更为复杂的模型。所以, 这类本体学习的主要任务就是分析关系模型中蕴涵的语义信息,将其映射到本体 中的相应部分。 基于

5、非结构化数据的本体学习技术:非结构化数据主要是针对没有固定结 构的数据(例如:纯文本文件)。由于缺乏一定的结构,要使机器自动地理解纯文 本并从中构建本体是一个困难的问题。要使机器能够自动地理解纯文本,并从中 抽取出所需要的知识,则必须利用自然语言处理(NLP)技术对其预处理,然后利 用统计、机器学习等手段从中获取知识。对于本体概念的获取,现有的方法可以分为3类:基于语言学的方法、基于 统计的方法和混合方法。对于本体概念间关系的获取,常用的方法有:基于模板的方法、基于概念聚 类的方法、基于关联规则的方法、基于词典的方法,或者这些方法的混和。 基于半结构化数据的本体学习技术:半结构化数据即针对We

6、b中的XML 格式和HTML格式的网页的数据源。由于这类数据是介于结构化和非结构化数据 之间的一类数据,所以基于上述两种数据类型的本体学习技术也可以应用到这类 数据源。应用领域本体用于知识发现在特定领域中构建不同的领域本体,主要是涉及特定领域的概念定义和概念 之间的关系,提供该领域中发生的活动以及该领域的主要理论和基本原理等,从 而将其应用于领域知识发现中。目前开发和涉及的领域包括语义网、企业本体、 农业本体、医学本体、酶催化生物医学本体、陶瓷材料机械属性本体等。本体除定义关系外。还能定义属性的知识范畴,使子类能继承父类的属性。必须依靠本体(Ontology)处理相同概念但不同形式的同义关系。

7、数据挖掘领域知识本体数据挖掘(Data Mining)是一个利用各种分析工具在海量数据中发现模型和数 据间关系的过程,并通过这些模型和关系可以用来做出预测。由于数据挖掘是研 究的热点,而数据挖掘领域知识又十分的繁杂,就产生利用本体的理论来构建数 据挖掘的领域知识,以协助数据挖掘工作者。国内外对这方面的研究还不是很成 熟。2002年,Bernstein等人提出了基于本体的方法来智能帮助数据挖掘过程。 通过本体对数据挖掘过程进行描述,如:数据预处理、数据挖掘算法应用阶段和 数据后处理。又对数据挖掘算法进行了描述,如算法的名称、前提、阈值、排斥 和最后效果等属性。并从准确性和速度上给出了实验数据。2

8、003年,Cannataro 等人提出了基于网格的环境下,构建数据挖掘领域本体用于知识发现的过程,在 具体解决一个数据挖掘问题时,在众多方法和算法中为领域专家提供一个合适的 参考模型。从数据挖掘的任务、方法、算法、软件等方面进行描述,并用OWL 元语给出了具体的描述。最后还给出基于知识网格的数据挖掘本体的架构。国内的邢平平等人提出了一种基于本体的数据挖掘方法。首先,利用领域知 识或背景知识,可在高层次上进行数据挖掘,产生高层次或多层次的规则,甚至 是具有语义的规则,这些规则由高层次的抽象概念组成,系统能够自动进行数据 挖掘,利用本体进行数据预处理及后处理。李玉华等人提出了在通用知识网格环 境下

9、以用户为中心的数据挖掘本体的设计和OWL实现。邹力鹍等人提出了在数 据挖掘过程中构建数据挖掘本体,并给出了利用数据挖掘本体生成有效的DM过 程的算法伪码。本体论定义:本体论一词源自于哲学3,用于探讨“存在(being)”的一门学问,一般而 言,本体论常利用树状结构(图表1)及关联的方式来表达人世间所有的事物, 并描述些事物之间的规则。生物动物梢物张一三图表1哲学中的本体在人工智能界,最早给出Ontology定义的是Neches等人,他们将Ontology 定义为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构 成的规定这些词汇外延的规则的定义”。1993年,Gruber给出了

10、Ontology的一 个最为流行的定义,即“Ontology是概念模型的明确的规范说明”。后来,Borst 在此基础上,给出了 Ontology的另外一种定义:“Ontology是共享概念模型的形 式化规范说明”。Studer等对上述两个定义进行了深入的研究,认为Ontology是 共享概念模型的明确的形式化规范说明。这包含4层含义:概念模型 (conceptualization)、明确(explicit)、形式化(formal)和共享(share)。本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该 领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇(术语)和词 汇

11、间相互关系的明确定义。Perez等人认为Ontology可以按分类法来组织,他归纳出Ontology包含5个 基本的建模元语(Modeling Primitive)o这些元语分别为:类(classes),关系(relations), 函数(functions),公理(axioms)和实例(instances)。通常也把 classes 写成 concepts。一般而言,本体论的构成要素有:Class、Slot、Instance、Axiomo Class是人 类脑中的一个类别或称概念,如人、中国人、日本人、美国人等都可称作Class, 其中,中国人、日本人、美国人可为人的子类别,所以人在这个例子

12、中可视为更 高层的概念。Slot在本体论中用来描述概念的属性或概念间的关联,如人必定有 身高或体重,或者人必定会有父母。其中,父类别与子类别之间的关联也可算是 一种Slot。Instance称作实例,在本体论中是概念或类别的一个案例,实例将会 继承其类别的所有属性或关联,如:每个都是人的实例,且身高、体重都不相同。Axiom于本体论中是原则或限制,其功能在于制定概念间关联或限制,其与 Slot不同之处在于,Slot清楚定义两个类别间的关联。Axiom是定义了 Slot无法 指出的关联,这种关联往往会横跨多个类别,例如在人的类别中,会具备吃这个 关联,而人可以吃所有的动物,但人本身又是动物的子类

13、别,所以在这个定义下, 人可以吃人,但若依照现行的道德习惯,人是不可以吃人,因此,即可利用Axiom 定义人不可吃人。本体论功能一般而言,本体论的功能有提供词汇及提供储存知识实体。前者功能是因为 本体论具有阶层性架构,可用于描述概念间的相同概念或阶层性关系。本体论常 用来描述特定领域中的专有术语及其关系。另外,它具备可描述世间所有事物的 特性,因此,相对于Fuzzy、Neural Nets等算法,本体论于人工智能中扮演着 管理知识的角色,同时也可看成是利用结构化的模型来管理领域的知识。若从本体论应用的角度来看,常用于沟通(communication)、交互运作(interoperability

14、)及软件工程(software engineering)。沟通是透过本体使多个不同领 域的人或系统进行沟通,即是知识表达及知识分享。交互运作为本体论应用于整 合性系统,以使机器自动化地交换数据或信息,亦是知识分享。在软件工程方面, 它是将本体论应用于系统开发之中,以达到组件重用(reusing)、提高可用性(reliability )的目的,亦是知识的重用。若从有应用本体论技术的领域来看,本体论常被应用到知识管理、电子商务及EDI (Electric Data Interchange,电子数据交换)三方面。本体论应用到知 识管理中,提供了知识编码、储存、维护及搜寻等的支持。在编码方面,本体论

15、利用Framebased或Logic based的语言针对知识加以描述。在储存及维护方面, 目前许多的Ontology工具皆提供知识库的维护。在搜寻方面,本体论可结合推 理机进行语意就本体论一般化的程度上来看,可将本体论分成五种大类。这五大 类的区分方式主要是透过本体论的一般化程度及功能来加以区分,领域本体论是 针对特定领域描述其知识的本体论。元资料本体论(如Dublin Core)是用来描述 事物属性的本体论。一般知识本体论是指描述人世间不具特定领域知识的本体论。 知识表达本体论用来描述如何表达知识。方法或任务本体论是用来描述特定领域 的任务或处理方法的本体论,如常见的PSM。式查询,能够在

16、适当时机了解使用 者描述的问句,并找出符合的答案。在电子商务方面的应用上,本体论常结合 Agent技术成为Intelligent Agent,在B2B中提供中介的交易接口,在B2C中则提 供Shopbot的功能,以S.A.Mcllraith等人的研究为例,利用本体论所建立出来的 Intelligent Agent可以在众多的网站中找出符合使用者需要求的网站,并正确地帮 使用者执行任务,如下订单等。就本体论一般化的程度上来看,可将本体论分成下列五种大类,见图表2。分类说明领域本体抽取特定领域知识房的产出,用以描述该领域的知识,(Domain Ontology)如医学、会计本体论等。元料本体用以提

17、供描述在线资源的字汇,如图书馆常用的(Metadata Ontology )Dublin Coi -般知识本体抽取 般化知识所产出的本体论.并提供对时间,空间 Common Ontology)或事件基础的见解或概念。知识表达本体此类本体论.井无明梆用于任何产业.IU为提供知识表CR.epresentHtionpil Ontology)达,如Frame Ontologyr方法或任务本体是提供特定任务或方法的本体(Task Ontology)图表2本体论分类架构这五大类的区分方式主要是透过本体论的一般化程度及功能来加以区分,领 域本体论是针对特定领域描述其知识的本体论。元资料本体论(如Dublin

18、 Core) 是用来描述事物属性的本体论。一般知识本体论是指描述人世间不具特定领域知 识的本体论。知识表达本体论用来描述如何表达知识。方法或任务本体论是用来 描述特定领域的任务或处理方法的本体论,如常见的PSM。本体论与其他技术的比较从本体论在哲学的发展可知,本体论是用来描述人世间事物的一门学问。另 一方面,从本体论的功能中可发现,本体论可以用来架构知识库,因此,它与数 据库之间也会存在着某些关联。从本体论在人工智能的角色中也可发现, Ontology-based System可利用本体论当成其知识库,并提供智能型代理人的功能, 其角色将会与专家系统中的知识库相类似。因此,此节主要将探讨本体论

19、与对象 导向技术、资料库、及Ontology-based System与专家系统之间的差异。本体论与数据库:本体论常用来描述特定领域中类别与类别间的关联,而本 体论中实例则描述了类别底下真实的数据。一般而言,实例可储存于档案或数据 库之中。当本体论与数据库相比时,本体论的类别与数据库中的Schema类似, 都定义了类别中应有的属性或关联,本体论中的实例则与同数据库中数据表所存 的数据类似,都是用来描述事实的数据。在本体论与数据库的关联上,本体论可与数据库相连结,利用数据库中现有 的数据当成实例,或直接利用数据库的技术,将本体论中的实例存在数据库中, 见图表3。项n数据库本体姓字段(屈性或关系)

20、属于单-数据表共享于类别间跨数据表(类别)杳询雅,需利用SQL指令易,可利用共享宇段进行发展成熟度高低,因发展不久不统 目前并无单查查询技术统、采用SQL指令询技术的标准数据管理好差图表3本体论与数据库技术的比较数据库在搜寻及数据管理上都较本体论好。但在概念描述上,由于数据库中 的数据常以关联式数据表的方式表达,因此在进行跨数据表的查询上会较本体论 来得复杂,同时,数据库中字段是属于单一数据表,而本体论中属性或关系则是 共享于类别之间。本体论与专家系统:通常一个信息系统结合本体论与推理机后,会被称为 Ontology-based System,此种结构与人工智能中的专家系统类似,唯一差别在于

21、专家系统中的知识库多采用Rule-based或Frame-based的架构。在专家系统的知 识库架构下,只能表达一个层次的知识或法则,因此常被人批评为低阶的知识结 构与推论机制(Park et al,2003)。同时,专家系统知识库的分享常因知识结构不同, 而无法顺利进行。反观Ontology-based System,知识库采本体论的方式管理,于 知识共享上较为便利,且本体论具有描述人世间所有事物的特性,因此,在知识 的层级上,能够提供更深入的类别层次的描述。本体描述语言近年来,随着语义网的提出,本体论语言的研究间并没有一个共识,在本体 论的语言上则呈现百家争鸣的情况,目前较流行的语言可分成

22、两大类,一为以 W3C 为基础的语言,如 W3C 提出 RDF(s()resource description framework schema)、 OWL ( Web Ontology Language)、欧洲 On-To-Knowledge 提出 OIL( ontology inferencelayer)、DARPA提出 DAML(DARPA s agent markup language)等等,另 一种为架构在人工智能语言(frame、logic等)上的本体论语言,如美国Stanford 提出 KIF (knowledge interchange format)、Ontolingua 语

23、言等。此节将会介绍 以W3C架构为主的RDF及OWL语言,以及人工智能的KIF语言。RDF(Resource Description Framework):是 W3C 在 1999 年 2 月 22 日提出的Metadata语言,是一种描述网页中所有资源(如影音、图片、文字等)的 语言,也可针对一份文件加上语义。它设计的原因在于,网络上的资源越来越丰 富,随之而来的也是查询上的障碍,目前网络上的数据大都是机器可读取的数据, 而非机器能理解的数据,因此,透过Metadata语言的描述,能将网络上的资源, 由机器可读取转换成机器能理解的资料。RDF本身是一个具层次式架构的语言, 它可用来对编辑Me

24、tadata以提供数据编码、交换和重复利用,且结构是以概念 -属性-值的三元素为主。RDF Schema (RDFS)是用来定义RDF的纲要。对于 本体论而言,RDF则有两个重要的贡献,一是提供了许多本体论语言的一个标准 语法,二则是提供了一组描述网站中对象关联的基本架构。OWL (Web Ontology Language)适用于这样的应用,在这些应用中,不仅仅需要提供给用户可读的文 档内容,而且希望处理文档内容信息。OWL能够被用于清晰地表达词汇表中的 词条(term)的含义以及这些词条之间的关系。而这种对词条和它们之间的关系 的表达就称作Ontology。OWL相对XML、RDF和RDF

25、 Schema拥有更多的机制来 表达语义,从而OWL超越了 XML、RDF和RDF Schema仅仅能够表达网上机器可 读的文档内容的能力。OWL是W3C推荐的语义网络“栈”中的一部分,这个“栈”被表达如下图表4。名称描述XML 结构化文档的表层语法,对文档没有任何语义约束。XML Schema定又XML文档的结构绚束的语吾利象(或者资源)以及它们之间关系的数据模型,为数据模型 RDF提供了简单的语.义.这些数据模型能够用XML语法进行表达。描述RDP资源的属性和类型的词汇表,提供了对这些属性和类RDF Schema型的普遍层次的语义.添加了更多的用描述属性和类型的词汇,例如类型之间的甲 相交

26、性(disjointnessL基数 caMinality 等价性,属性的更 OWL丰富的类型,属性特.(例如对称性, symmetry),以及枚举类 型 | enumerated classes) 图表4本体语义栈KIF (Knowledge Interchange Format):是由美国 Stanford 大学 Computer Science研究所提出,目前已设计成标准送至ANS组织审查。KIF设计的目的在于 提供系统间知识交换的语言,在它的架构,一个采用KIF的机器可透过KIF将其 它机器送来的知识转换成内定的知识模组,同时,若要与其它机器交换知识时, 也可将知识转换成KIF的格式。KIF语言除了机器间知识交换外,还具备了逻辑 表示法的功能,可用以表达任意的逻辑关联,同时也可用来表达数据的语义。本体论工程常用的本体论工程有两种:Uschold提出的本体论工程和M.Gruninger提出 的TOVE本体论工程。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!