Semanticweb与Semanticwebservices.ppt

上传人：w****2 文档编号：16566547 上传时间：2020-10-13 格式：PPT 页数：79 大小：912.50KB

收藏版权申诉举报下载

第1页 / 共79页

第2页 / 共79页

第3页 / 共79页

下载文档到电脑，查找使用更方便

14.9 积分

下载资源

资源描述：

《Semanticweb与Semanticwebservices.ppt》由会员分享，可在线阅读，更多相关《Semanticweb与Semanticwebservices.ppt（79页珍藏版）》请在装配图网上搜索。

1、Semantic web 与 Semantic web services 电信学院黄广君 Semantic web 语义 web的产生语义 web技术基础主要研究方法开发步骤与工具应用系统 1 语义 web的产生 1.1 语义 web的起源 1.2 语义 web的理论基础 1.3 语义 web的目标 1.1 语义 web的起源 2001年 Tim Bernas Lee发表论文提出新一代 Internet技术。机器识别和处理 1.1.1 搜索引擎工作原理基于关键词，语法层次，词频位置扇入值 1.1.2 现有改进方法提供交互式界面，逐步求精。采用目录或基于反馈信息。效率较低

2、1.1 语义 web的起源（续） 1.1.3 引入语义分析技术基于本体，对用户的查询请求语句或词组做语义分析，进行必要的扩展和形式化处理。利用了语句中的语法结构信息和上下文语境信息，并使用逻辑推理技术，提高了查全率和查准率。 1.2 语义 web的理论基础（学科）计算语言学：自然语言处理技术概率统计模型：利用语境信息和经验值排歧人工智能技术：知识挖掘、智能推理 1.3 语义 web的目标目标：将面向人的网页、文档、知识转化为机器可以识别和处理的数据，从而提高查询效果。原理：将搜索引擎的处理层面由语法层提高到语义层。 2 语义 web技术

3、基础（开发）本体理论与本体论技术（关键技术）描述逻辑：逻辑推理同义词词典：扩展语料库：标注了的语句或文档集合训练集与测试集：用于构建统计模型的大型文档集合。 2.1 本体理论与本体论技术 2.1.1 本体定义本体 O由一个 4元组构成： O=D, A, R, F。 D为实体描述符集，它可以是一个客观实体对象，也可以是一个本体； A是描述 D的属性集； R是描述 D中各个实体之间相互关联的函数集； F是关于 O的一组公理或语义规则。一个简单本体实例 Ontology Example Concept conceptual entity of the domain Propert

4、y attribte describing a concept Relation relationship between concepts or properties Axiom coherency description between Concepts / Properties / Relations via logical expressions Person Student Professor Lecture isA hierarchy (taxonomy) name email matr.-nr. research field topic lecture nr. attends h

5、olds holds(Professor, Lecture) = Lecture.topic = Professor.researchField 2.1.2 本体结构全局本体 O1 O2 O3 O1 创建领域本体的步骤 3 主要研究方法基于语言学理论的理想主义方法：基于规则，从本质上探索语言模型和内部联系。在一些简单实例中精确度很高，但对于大规模应用效率很低。基于统计模型的经验主义方法：基于概率经验值和上下文信息，推断语义。实用性强。实际应用中上述两种方法相结合。 3.1 基于规则的语义分析方法切词：主要对汉语。英语主要是去停用词。词性标注：分析单词之间的语法关系。

6、短语划分：最关键任务。浅层句法 /语义分析：语义角色标注深层句法 /语义分析：语义层次结构基于句块的分析：局部分析主谓短语 ZW 述宾短语 SB 述补短语 PC 定中短语 DZ 状中短语 ZZ 量词短语 MP 方位短语 SP 介词短语 PP 的字短语 DE 联合短语 LH 兼语短语 JU 同位短语 TW 比况短语 BP 所字短语 SU 连谓短语 LW 语法模板 15种短语结构定义查询模型模块介绍初始查询语义扩展剪枝语义树做系统扩展提取最终查询式查询扩展查询模型原查询输入分词语义依存图例句子：今年他

7、的毕业论文被河南科技大学学报刊登。语义依存树刊登今年论文被毕业的学报他河南大学科技句子相似度算法流程有效语句训练接 L T P 平台分析构建语义依存树计算语义相似度存储句子关键词计算词形相似度判定值确定句子相似度计算方法原查询语句查询结果标题语句计算句子相似度 3.2 基于统计模型的研究方法最大熵模型隐马尔科夫模型粗糙集理论人工神经网络技术基于统计模型的研究方法最大熵模型 : 隐马尔科夫模型：一个隐马尔可夫模型

8、 (HMM) 是一个五元组： (X , O, A, B, )其中： X = q1,.qN：状态的有限集合， O = v1,.,vM：观察值的有限集合， A = aijaij = p(Xt+1 = qj |Xt = qi)：转移概率， B = bik， bik = p(Ot = vk | Xt = qi)：输出概率 = i， i = p(X1 = qi)：初始状态分布粗糙集理论 : 粗糙集可以通过粗糙隶属函数来定义，其中不可分辨关系 R下元素 x属于集合 X的程度。人工神经网络技术 ( ) ( ) ( | ) l o g ( | ) , H p p t p s t p s t ts

9、基于描述逻辑的知识推理 3.3 当前研究热点自动本体生成技术：人工、半自动、自动基于 WordNet的最长匹配算法短语识别中的语义排歧：统计模型、语境准确度与算法效率排序策略与算法语义相似度计算：向量余弦值。向量空间、潜在语义分析。 2 描述逻辑的体系结构一个描述逻辑系统包含四个基本组成部分： 1）表示概念和关系（ Role）的构造集 2） Tbox（ Terminology box）描述领域结构的公理集，包含概念定义及公理； 3） Abox（ Assertional box）具体个体的公理集，包含概念断言和关系断言。 4） Tbox和 Abox上

10、的推理机制。一个基于 DL的知识库就是 K=Tbox+Abox，简写为， KB（ T,A). 1） DL的基本元素概念和关系概念解释为一个领域的子集例子：所有在校学习的人员的集合构成“学生”概念又如：孩子，已婚的，哺乳动物等概念 x | Student(x) ， x | Married(x) 关系 (Roles) 属性 (二元谓词，关系 ) 例子：朋友，爱人， | Friend(x,y) ， | Loves(x,y) 知识库 TBox(模式 ) Man Human Male Happy-father Human Has-child.Female Abox(数据 ) Jo

11、hn: Happy-father : Has-child 推理系统接口 2） TBox语言是描述领域结构的公理的集合定义 : 引入概念的名称 A C, A C Father Man has-child.Human Human Animal Biped 包含：声明包含关系的公理 C D ( C D C D ， D C) has-degree.Masters has-degree.Bachelors 一个解释 I满足： C D iff CI = DI C D iff CI DI 一个解释 I满足： TBox T iff 它满足 T中的每个公理 (IT) TBox实例概念表示实体 (一元

12、谓词，类 ) 例子：学生，已婚的 x | Student(x) ， x | Married(x) Bird Animal, Man Human 关系 (Roles) 属性 (二元谓词，关系 ) 例子：朋友，爱人 | Friend(x,y) ， | Loves(x,y) 一个解释 I满足： a : C iff aI CI :R iff RI 一个解释 I满足 ABox A iff 它满足 A中的每个公理记为： I A 一个解释 I满足知识库 = iff 它满足 T和 A 记为： I 4）语法和语义构造算子语法语义例子原子概念 A AI I Human 原子关系 R RI I I has

13、-child 对概念 C,D和关系 (role)R 合取 C D CI DI Human Male 析取 C D CI DI Doctor Lawyer 非 C I C Male 存在量词 R.C x| y. RIy CI has-child.Male 全称量词 R.C x| y. RI y CI has- child.Doctor 3 DL中的构造算子一般地，描述逻辑依据提供的构造算子，在简单的概念和关系上构造出复杂的概念和关系。通常 DL至少包含以下算子：合取 ( )，吸取 ( )，非 ( ) 量词约束：存在量词 ( )，全称量词 () 最基本的 DL称之为 ALC 例如， ALC

15、Male Male Bottom Man Man 在 DL中添加算子一般地，在描述逻辑中添加不同的算子，则得到不同表达能力的描述逻辑，其复杂性问题也不尽相同。例如，在 ALC的基础上添加逆 ( - )算子，则构成 ALCI 若再加上数量约束算子 (n , n )，则构成 ALCIQ。若在描述逻辑中添加时序算子，则构成为时序描述逻辑 (Temporal Description Logic)，例如，可以添加： Until算子 U： C U D Since算子 S： C S D 还可以加入其它算子，如模态算子，，等。 4 描述逻辑中的推理 1) 一致性（协调性 consisten

16、cy） 2) 可满足性 (satisfiability) 3) 包含检测（ subsumption） 4) 实例检测 (instance checking) 5) Tableaux算法 6）可判定性 7）计算复杂性 1)一致性检测 (Consistency) C关于 Tbox T是协调的吗？即检测是否有 T的模型 I 使得 C ？知识库是协调的吗？即检测是否有的模型 (解释 ) I ？ 2) 概念可满足性 (Satisfiablity) 对一个概念 C，如果存在一个解释 I使得 CI是非空的，则称概念 C是可满足的，否则是不可满足的。检验一个概念的可满足性，实际上就是看是否

17、有解释使得这个概念成立。例如：概念 Male Female，即需要检测是否有性别既是男的又是女的这样的人。若确实是没有这种两性人，则我们断言，这个概念是不可满足的。又如概念： student worker，它是可满足的。即代表那些在职学生的集合。定理：概念 C是可满足的，当且仅当 C不包含于。 3) 概念包含 (Subsumption) 在知识库中检测： C D？即检测 CI DI 是否在所有的解释中成立？在 Tbox中检测： C D？即检测 CI DI 是否在 Tbox T的所有解释中成立？例如： bird animal computer equipment 包含与

18、可满足性的关系 C D iff C D是不可满足的。 C T D iff C D关于 T是不可满足的。 C 关于 T是一致的 iff C T A A D D C C D 4）实例检测 (Instance checking) 概念的实例： Student (John)，或者表示为 John:Student 关系的实例： Father(John, Mary) 实例检索：检索属于某个概念的所有实例的集合 5）可满足性检测算法 Tableaux算法 1) 规则 : S x:C1, x:C2S，若 x:C1 C2在 S中，且 x:C1和 x:C2不在 S中同时出现。 2) 规则 : S x:D

19、S，若 x:C1C2在 S中， x:C1和 x:C2都不在 S中，且 D= C1或者 D= C2。 3) 规则 : S xP1y,xPky, y:CS，若 x:R.C在 S中， R= P1Pk，没有 z使得 xRz在 S中成立，且 z:C在 S中， y为一个新变量。 4) 规则 : S y:CS，若 x:R.C在 S中， xRy在 S中成立，且 y:C不在 S中。例子：检测概念的可满足性： (has-child.Male) (has-child.Male)，其检测过程为： (has-child.Male) (has-child.Male)(x) (has-

20、child.Male)(x) 规则 (has-child.Male)(x) 规则 has-child (x, y) 规则 Male (y) 规则 Male (y) 规则矛盾所以这个概念是不可满足的。 6）可判定性描述逻辑中的可满足性问题是可判定的。其它推理问题基本上可以归结为可满足性问题。 7）计算复杂性描述逻辑中的推理问题其计算复杂性一般是多项式时间的。但通常由于构造的不同，其复杂性也有一定的差异。 Semantic Web Architecture 语义排歧原文：老虎咬死了猎人的狗。划分 1：咬死了猎人的狗划分 2：咬死了猎人的狗解决 1：使用统计经验值

21、。解决 2：使用上下文语境信息。问题：引入语境信息会降低算法效率。排序策略与算法根据相关度排序：频度、位置、扇入度根据个人信息排序：挖掘历史数据。按类。二次排序：基于伪反馈的语义相似度计算。取 top-k文档构建向量空间，计算查询词组与向量空间的相似度。基于潜在语义分析的相似度计算。向量空间模型基本思想：以文本的特征向量来表示文本。三个基本概念：文档 (Document)VSM中处理的对象单元，如句子、文章等。义项 (Term)VSM中最小的不可分的语言单元，如字、词或词组。例如文档可表示为： D(T1,T2,T n)，其中 Tk为义项。义项的权值 (Wei

22、ght)对于含有 n个义项的文档 D(T1,T2T n)，每一个义项 Tk都根据一定的原则被赋予一个权值 wk，表示他们在文档中的重要程度。这样一个文档就可以表示为： D(T1， w1， Tn,wn)。在明确 Tk的情况下可以简记为 D(w1,w2,w n) 向量空间矩阵见板书：单词为行，文档为列， TF/IDF为矩阵元素。潜在语义分析潜在语义分析的主要方法即是对文档进行计算，找到其中隐含的语义关系，步骤如下： 1.生成词汇文本矩阵 X，其中 xij表示第 i个词汇在第 j个文本中出现的频率，或 tf-idf值。 2.潜在语义分析权值计算。 3.奇异值分解（ SVD）。 4.

23、计算各种相似度。潜在语义分析的物理意义 4 基本开发步骤定义领域本体。如果需要，还要定义全局本体和本体间的影射规则。计算领域本体的向量空间中心线。构建训练集、语料库。训练集通常是大规模文档集合。可以是标注的或未标注的。设计业务模块。例如信息查询、数据挖掘。测试系统。用公共测试集验证相关算法或业务流程。 5 智能搜索引擎：一个实例 5.1 搜索引擎类型 5.2 查询扩展 5.3 重排序 5.1 搜索引擎类型理想型： web网页被完整语义标注，引擎对查询请求语句作深层语义分析，具有智能推理功能。完整型：具有全面语义分析、搜索和推理能力，可以对 web网页做自动标注。少

24、量机构正在研发。马里兰大学设计和研发的 swoogle ； UMBC大学 eBquity实验室开发的 OWLIR；改进型：基于现有搜索引擎，对其输入输出接口做语义升级。 5.2 查询扩展方法基于同义词词典无约束扩展基于同义词词典的有限扩展：基于信息增益、互信息等数据特征基于语义模型的有限扩展：扩展词来源于同义词词典、本体概念及实例、上下位概念等语义扩展算法流程图用户构建语义树语义候选扩展词集统计候选扩展词集 + 统计信息初始查询 W o r d N e t 扩展词集检索文档返回文档重排

25、序显示排序后的结果集输入查询词初检文档共现模型统计最终扩展词集剪枝语义树 + 选择统计扩展词构建语义树语义词典 WordNet 构建语义树 b a n k E n t i t y P h y s i c a l e n t i t y O b j e c t ， p h y s i c a l o b j e c t G e o l o g i c a l f o r m a t i o n ， f o r m a t i o n S l o p e ， i n c l i n e ， s i d e b a

26、 n k W a t e r s i d e R i v e r b a n k R i v e r s i d e E n t i t y A b s t r a c t e n t i t y A b s t r a c t i o n G r o u p ， g r o u p i n g S o c i a l g r o u p O r g a n i z a t i o n ， o r g a n i s a t i o n I n s t i t u t i o n s ， e s t a b l i s h m e n t F i n a n c i a l i n s t i

27、 t u t i o n ， f i n a n c i a l o r g a n i s a t i o n B a n k , , b a n k i n g c o m p a n y T h r i f t i n s t i t u t i o n S a v i n g a n d l o a n , s a v i n g a n d l o a n a s s o c i a t i o n M u t u a l s a v i n g s b a n k ， M S B R i v e r , b a n k r i v e r 基于语义模型的查询扩展构建领域本体和训练

28、集。对查询请求预分类，为扩展提供外部语境。对源句做语法语义分析，提取概念集合及概念之间依存关系，计算其统计权值和语义结构权值，得到语义模型。扩展查询词：同义词无约束扩展，信息增益约束扩展，互信息扩展，语义模型约束扩展。统计方面的扩展基于互信息的统计模型带有衰减因子的互信息其中，，表示词和词在所有窗口单元中的平均距离。表示词间相关性随词间距离衰减的剧烈程度。 )(*)( ),(l og*),(),( ypxp yxpyxpyxMI ),(),(),( yxDyxMIyxD M I ( ( , ) 1 )( , ) D i s x yD x y e ( , )Dis

29、 x y 5.3 重排序基于语义相似度计算：向量空间、潜在语义分析变换。个性化要求对片断的抽取返回文档排序文档和查询的相似度计算根据相似度的高低排序返回文档 n j qj n j ij n j qjij ww ww iC 1 2 1 2 1 Semantic web应用信息抽取自动摘要自动查询 Semantic web services 1 起源 2 web services框架 3 语义 web services结构 1 起源在 web services技术中增加语义描述、发现和推理能力。 Web services是分布式计算技术，具有 “单系统映射”特性。 Web

30、services的查找和匹配是基于名称或属性的精确匹配，处于语法层次。增加语义层是为了解决异构问题。 Web Services 框架 Web Services 组件。包括 3 种组件：服务提供者；服务代理；服务请求者。 Web Services 操作。包括 3 种操作：发布 /不发布 (Publish/Unpublish)；发现 (Find)；绑定 (Bind)。 Web services 工作原理基础的 Web Services 平台是 XML + HTTP。 HTTP 协议是最常用的因特网协议。 XML 提供了一种可用于不同平台标记语言。 Web services 平台的

31、元素： SOAP (简易对象访问协议 ) UDDI (通用描述、发现及整合 ) WSDL (Web services 描述语言 ) Web services工作模式 Semantic web services层次结构 RDF组成 RDF Data Model RDF Schema RDF Syntax RDF Data Model 它包含一系列的节点 N；它包含一系列属性类 P；每一属性都有一定的取值 V； RDF Data Model是一个三元组：节点，属性类，属性值；每一个 RDF Data Model可以看成是由节点和弧构成的有向图。 RDF Schema 定义资源以及属性

32、的类别；定义属性所应用的资源类以及属性值的类型；定义上述类别声明的语法；申明一些由其它机构或组织定义的元数据的标准的属性类。 RDF Schema（续） RDF Schema定义了三个核心类： rdf： Resource、 rdfs： Property、 rdfs： Class；五个核心属性： rdf： type、 rdfs： subClassof、 rdfs： seeAlso、 rdfs： subpropertyof、 rdfs： isDefinedBy；四个核心约束： rdfs： ConstantResource、 rdfs： range、 rdfs： Constra

33、intProperty和 rdfs： domain。 RDF Basic Concepts To make these statements machine-proccessable two things are needed: a system of machine-processable identifiers (for subjects, predicates and objects) without any possibilty of confusion between similar looking identifiers a machine-processable language

34、 for representing these statements and exchanging them between machines RDF defines a XML markup language, named RDF/XML, which allows to represent RDF statements. Uniform Resource Identifiers (URI) allow to identify and uniquely name things - even if they have no network-accessible location. RDF Mo

35、del As mentioned: RDF makes statements about resources Each statement consists of a subject, a predicate and an object http:/www.example.org/index.html has a creator whose value is John Smith http:/www.example.org/staffid/5232 http:/purl.org/dc/elements/1.1/creator http:/www.example.org/index.html s

36、ubject object predicate Web Ontology Language (OWL) is another effort developed by the OWL working group of the W3Consorsium. OWL is an extension of DAML+OIL. OWL is divided following sub languages. OWL Lite OWL (Description Logics) DL OWL Full limited cardinality OWL Lite provides many of the facil

37、ities of DAML+OIL provides. In addition to RDF/RDFS tags, it also allows us to express equivalence, identity, difference, inverse, and transitivity. OWL Lite is a subset of OWL DL, which in turn is a subset of OWL Full. AIST Meeting JPL, CA 2003 Web Ontology Language (OWL) 描述语言进化过程扩展后的 OWL-S本体结构 OW

38、L-S中服务描述 S e r v i c e S e r v i c e M o d e l S e r v i c e G r o u n d i n g S e r v i c e P r o f i l e R e s o u r c e s S u p p o r t s D e s c r i b e s P r e s e n t s P r o v i d e s 描述服务是做什么的描述服务是如何访问的描述服务是如何工作的原子资源或复合资源 Web Services and the Semantic Web (ServiceProfile) Profile Definition of Profile

展开阅读全文

温馨提示:
1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

备案号:蜀ICP备2024067431号-1 川公网安备51140202000466号

本站为文档C2C交易模式，即用户上传的文档直接被用户下载，本站只是中间服务平台，本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私，请立即通知装配图网，我们立即给予删除！

Semanticweb与Semanticwebservices.ppt

最新文档

相关资源

相关搜索