Semanticweb与Semanticwebservices.ppt

上传人:w****2 文档编号:16566547 上传时间:2020-10-13 格式:PPT 页数:79 大小:912.50KB
收藏 版权申诉 举报 下载
Semanticweb与Semanticwebservices.ppt_第1页
第1页 / 共79页
Semanticweb与Semanticwebservices.ppt_第2页
第2页 / 共79页
Semanticweb与Semanticwebservices.ppt_第3页
第3页 / 共79页
资源描述:

《Semanticweb与Semanticwebservices.ppt》由会员分享,可在线阅读,更多相关《Semanticweb与Semanticwebservices.ppt(79页珍藏版)》请在装配图网上搜索。

1、Semantic web 与 Semantic web services 电信学院 黄广君 Semantic web 语义 web的产生 语义 web技术基础 主要研究方法 开发步骤与工具 应用系统 1 语义 web的产生 1.1 语义 web的起源 1.2 语义 web的理论基础 1.3 语义 web的目标 1.1 语义 web的起源 2001年 Tim Bernas Lee发表论文提出新 一代 Internet技术。机器识别和处理 1.1.1 搜索引擎工作原理 基于关键词,语法层次,词频 位置 扇入值 1.1.2 现有改进方法 提供交互式界面,逐步求精。采用目录或 基于反馈信息。效率较低

2、1.1 语义 web的起源(续) 1.1.3 引入语义分析技术 基于本体,对用户的查询请求语句或词组 做语义分析,进行必要的扩展和形式化处 理。 利用了语句中的 语法结构 信息和上下文 语 境 信息,并使用逻辑推理技术,提高了 查 全率 和 查准率 。 1.2 语义 web的理论基础(学科) 计算语言学:自然语言处理技术 概率统计模型:利用语境信息和经验值排 歧 人工智能技术:知识挖掘、智能推理 1.3 语义 web的目标 目标 :将面向人的网页、文档、知识转化为 机器可以识别和处理的数据,从而提高查 询效果。 原理 :将搜索引擎的处理层面由 语法层 提高 到 语义层 。 2 语义 web技术

3、基础(开发) 本体理论与本体论技术(关键技术) 描述逻辑:逻辑推理 同义词词典:扩展 语料库:标注了的语句或文档集合 训练集与测试集:用于构建统计模型的大 型文档集合。 2.1 本体理论与本体论技术 2.1.1 本体定义 本体 O由一个 4元组构成: O=D, A, R, F。 D为实体描述符集,它可以是一个客观实体 对象, 也可以是一个本体; A是描述 D的属性集; R是描述 D中各个实体之间相互关联的函数集; F是关于 O的一组公理或语义规则。 一个简单本体实例 Ontology Example Concept conceptual entity of the domain Propert

4、y attribte describing a concept Relation relationship between concepts or properties Axiom coherency description between Concepts / Properties / Relations via logical expressions Person Student Professor Lecture isA hierarchy (taxonomy) name email matr.-nr. research field topic lecture nr. attends h

5、olds holds(Professor, Lecture) = Lecture.topic = Professor.researchField 2.1.2 本体结构 全局本体 O1 O2 O3 O1 创建 领域 本体的步骤 3 主要研究方法 基于语言学理论的理想主义方法:基于规 则,从本质上探索语言模型和内部联系。 在一些简单实例中精确度很高,但对于大 规模应用效率很低。 基于统计模型的经验主义方法:基于概率 经验值和上下文信息,推断语义。实用性 强。 实际应用中上述两种方法相结合。 3.1 基于规则的语义分析方法 切词:主要对汉语。英语主要是去停用词。 词性标注:分析单词之间的语法关系。

6、短语划分 :最关键任务。 浅层句法 /语义分析:语义角色标注 深层句法 /语义分析:语义层次结构 基于句块的分析:局部分析 主谓短语 ZW 述宾短语 SB 述补短语 PC 定中短语 DZ 状中短语 ZZ 量词短语 MP 方位短语 SP 介词短语 PP 的字短语 DE 联合短语 LH 兼语短语 JU 同位短语 TW 比况短语 BP 所字短语 SU 连谓短语 LW 语法模板 15种短语结构定义 查询模型模块 介绍 初 始 查 询 语 义 扩 展 剪 枝 语 义 树 做 系 统 扩 展 提 取 最 终 查 询 式 查 询 扩 展 查 询 模 型 原 查 询 输 入 分 词 语义依存图例 句子:今年他

7、的毕业论文被河南科技大学 学报刊登。 语义依存树 刊登 今年 论文 被 毕业 的 学报 他 河南 大学 科技 句子相似度算法流程 有 效 语 句 训 练 接 L T P 平 台 分 析 构 建 语 义 依 存 树 计 算 语 义 相 似 度 存 储 句 子 关 键 词 计 算 词 形 相 似 度 判 定 值 确 定 句 子 相 似 度 计 算 方 法 原 查 询 语 句 查 询 结 果 标 题 语 句 计 算 句 子 相 似 度 3.2 基于统计模型的研究方法 最大熵模型 隐马尔科夫模型 粗糙集理论 人工神经网络技术 基于统计模型的研究方法 最大熵模型 : 隐马尔科夫模型: 一个隐马尔可夫模型

8、 (HMM) 是一个五元组: (X , O, A, B, )其中: X = q1,.qN:状态的有限集合, O = v1,.,vM:观察值的有限集合, A = aijaij = p(Xt+1 = qj |Xt = qi):转移 概率, B = bik, bik = p(Ot = vk | Xt = qi):输出概率 = i, i = p(X1 = qi):初始状态分布 粗糙集理论 : 粗糙集可以通过粗糙隶属函数 来定义,其中 不可分辨 关系 R下元素 x属于集合 X的程度。 人工神经网络技术 ( ) ( ) ( | ) l o g ( | ) , H p p t p s t p s t ts

9、基于描述逻辑的知识推理 3.3 当前研究热点 自动本体生成技术:人工、半自动、自动 基于 WordNet的最长匹配算法 短语识别中的语义排歧:统计模型、语境 准确度与算法效率 排序策略与算法 语义相似度计算:向量余弦值。向量空 间、潜在语义分析。 2 描述逻辑的体系结构 一个描述逻辑系统包含四个基本组成部分 : 1) 表示概念和关系 ( Role) 的构造集 2) Tbox( Terminology box) 描述领域结构的 公理集 , 包含概念定义及公理; 3) Abox( Assertional box) 具体 个体 的公理 集 , 包含概念断言和关系断言 。 4) Tbox和 Abox上

10、的推理机制 。 一个基于 DL的知识库就是 K=Tbox+Abox, 简写为 , KB( T,A). 1) DL的基本元素 概念和关系 概念 解释为一个领域的子集 例子:所有在校学习的人员的集合构成“学生”概 念 又如:孩子,已婚的,哺乳动物等概念 x | Student(x) , x | Married(x) 关系 (Roles) 属性 (二元谓词,关系 ) 例子:朋友,爱人, | Friend(x,y) , | Loves(x,y) 知 识 库 TBox(模式 ) Man Human Male Happy-father Human Has-child.Female Abox(数据 ) Jo

11、hn: Happy-father : Has-child 推理系统 接口 2) TBox语言 是描述领域结构的公理的集合 定义 : 引入概念的名称 A C, A C Father Man has-child.Human Human Animal Biped 包含 :声明包含关系的公理 C D ( C D C D , D C) has-degree.Masters has-degree.Bachelors 一个解释 I满足: C D iff CI = DI C D iff CI DI 一个解释 I满足: TBox T iff 它满足 T中的每个公理 (IT) TBox实例 概念 表示实体 (一元

12、谓词,类 ) 例子:学生,已婚的 x | Student(x) , x | Married(x) Bird Animal, Man Human 关系 (Roles) 属性 (二元谓词,关系 ) 例子:朋友,爱人 | Friend(x,y) , | Loves(x,y) 一个解释 I满足: a : C iff aI CI :R iff RI 一个解释 I满足 ABox A iff 它满足 A中的每个公理记为: I A 一个解释 I满足知识库 = iff 它满足 T和 A 记为: I 4)语法和语义 构造算子 语法 语义 例子 原子概念 A AI I Human 原子关系 R RI I I has

13、-child 对概念 C,D和关系 (role)R 合取 C D CI DI Human Male 析取 C D CI DI Doctor Lawyer 非 C I C Male 存在量词 R.C x| y. RIy CI has-child.Male 全称量词 R.C x| y. RI y CI has- child.Doctor 3 DL中的构造算子 一般地,描述逻辑依据提供的构造算子,在简单的 概念和关系上构造出复杂的概念和关系。 通常 DL至少包含以下算子: 合取 ( ),吸取 ( ),非 ( ) 量词约束:存在量词 ( ),全称量词 () 最基本的 DL称之为 ALC 例如, ALC

14、中概念 Happy-father定义为: Man has-child.Male has-child.Female has-child.(Doctor Lawyer) DL中的其它算子 构造算子 数量约束 逆 传递闭包 语法 语义 例子 n R . C x| | y| RI ,y CI | n 3 has-child .Male n R . C x| | y| RI ,y CI | n 3 has-child .Male R - | RI has-child- R* (RI )* has-child* 另外,有两个类似于 FOL中的全集 (true)和空集 (false)的算子 top T I

15、Male Male Bottom Man Man 在 DL中添加算子 一般地,在描述逻辑中添加不同的算子,则得到不同 表达能力的描述逻辑,其复杂性问题也不尽相同。 例如,在 ALC的基础上添加逆 ( - )算子,则构成 ALCI 若再加上数量约束算子 (n , n ),则构成 ALCIQ。 若在描述逻辑中添加时序算子,则构成为时序描述 逻辑 (Temporal Description Logic),例如,可以添加: Until算子 U: C U D Since算子 S: C S D 还可以加入其它算子,如模态算子 , , 等。 4 描述逻辑中的推理 1) 一致性 ( 协调性 consisten

16、cy) 2) 可满足性 (satisfiability) 3) 包含检测 ( subsumption) 4) 实例检测 (instance checking) 5) Tableaux算法 6) 可判定性 7) 计算复杂性 1)一致性检测 (Consistency) C关于 Tbox T是协调的吗? 即检测是否有 T的模型 I 使得 C ? 知识库 是协调的吗? 即检测是否有 的模型 (解释 ) I ? 2) 概念可满足性 (Satisfiablity) 对一个概念 C,如果存在一个解释 I使得 CI是非空 的,则称概念 C是可满足的,否则是不可满足的。 检验一个概念的可满足性,实际上就是看是否

17、有 解释使得这个概念成立。例如:概念 Male Female,即需要检测是否有性别既是男的又是女 的这样的人。若确实是没有这种两性人,则我们 断言,这个概念是不可满足的。 又如概念: student worker,它是可满足的。 即代表那些在职学生的集合。 定理:概念 C是可满足的,当且仅当 C不包含于 。 3) 概念包含 (Subsumption) 在知识库中检测 : C D? 即检测 CI DI 是否在所有的解释中成立? 在 Tbox中检测 : C D? 即检测 CI DI 是否在 Tbox T的所有解释中成立? 例如: bird animal computer equipment 包含与

18、可满足性的关系 C D iff C D是不可满足的。 C T D iff C D关于 T是不可满足的。 C 关于 T是一致的 iff C T A A D D C C D 4)实例检测 (Instance checking) 概念的实例: Student (John),或者表示为 John:Student 关系的实例: Father(John, Mary) 实例检索: 检索属于某个概念的所有实例的集合 5)可满足性检测算法 Tableaux算法 1) 规则 : S x:C1, x:C2S, 若 x:C1 C2在 S中 , 且 x:C1和 x:C2不在 S中同时出现 。 2) 规则 : S x:D

19、S, 若 x:C1C2在 S中 , x:C1和 x:C2都不 在 S中 , 且 D= C1或者 D= C2。 3) 规则 : S xP1y,xPky, y:CS, 若 x:R.C在 S中 , R= P1Pk, 没有 z使得 xRz在 S中成立 , 且 z:C在 S中 , y为一个新变量 。 4) 规则 : S y:CS, 若 x:R.C在 S中 , xRy在 S中成立 , 且 y:C不在 S中 。 例子:检测概念的可满足性: (has-child.Male) (has-child.Male), 其检测过程为: (has-child.Male) (has-child.Male)(x) (has-

20、child.Male)(x) 规则 (has-child.Male)(x) 规则 has-child (x, y) 规则 Male (y) 规则 Male (y) 规则 矛盾 所以这个概念是不可满足的。 6)可判定性 描述逻辑中的可满足性问题是可判定的。 其它推理问题基本上可以归结为可满足 性问题。 7)计算复杂性 描述逻辑中的推理问题其计算复杂性 一般是多项式时间的。但通常由于构 造的不同,其复杂性也有一定的差异。 Semantic Web Architecture 语义排歧 原文: 老虎 咬死了猎人的狗。 划分 1: 咬死了 猎人的狗 划分 2: 咬死了猎人 的狗 解决 1:使用统计经验值

21、。 解决 2:使用上下文语境信息。 问题:引入语境信息会降低算法效率。 排序策略与算法 根据相关度排序:频度、位置、扇入度 根据个人信息排序:挖掘历史数据。按类。 二次排序:基于伪反馈的语义相似度计算。 取 top-k文档构建向量空间,计算查询词组 与向量空间的相似度。 基于潜在语义分析的相似度计算。 向量空间 模型 基本思想:以文本的特征向量来表示文本 。 三个基本概念: 文档 (Document)VSM中处理的对象单元,如句子、文章等。 义项 (Term)VSM中最小的不可分的语言单元,如字、词或词组。例如文档可 表示为: D(T1,T2,T n),其中 Tk为义项。 义项的权值 (Wei

22、ght)对于含有 n个义项的文档 D(T1,T2T n),每一个义项 Tk都 根据一定的原则被赋予一个权值 wk,表示他们在文档中的重要程度。这样一个文档 就可以表示为: D(T1, w1, Tn,wn)。在明确 Tk的情况下可以简记为 D(w1,w2,w n) 向量空间矩阵 见板书: 单词为行,文档为列, TF/IDF为矩阵元素。 潜在语义分析 潜在语义分析的主要方法即是对文档进行 计算,找到其中隐含的语义关系,步骤如 下: 1.生成词汇文本矩阵 X,其中 xij表示第 i个词汇在第 j个文本中 出现的频率,或 tf-idf值。 2.潜在语义分析权值计算。 3.奇异值分解( SVD)。 4.

23、计算各种相似度。 潜在语义分析的物理意义 4 基本开发步骤 定义领域本体。如果需要,还要定义全局 本体和本体间的影射规则。计算领域本体 的向量空间中心线。 构建训练集、语料库。训练集通常是大规 模文档集合。可以是标注的或未标注的。 设计业务模块。例如信息查询、数据挖掘。 测试系统。用公共测试集验证相关算法或 业务流程。 5 智能搜索引擎:一个实例 5.1 搜索引擎类型 5.2 查询扩展 5.3 重排序 5.1 搜索引擎类型 理想型 : web网页被完整语义标注,引擎对查询 请求语句作深层语义分析,具有智能推理功能。 完整型 :具有全面语义分析、搜索和推理能力, 可以对 web网页做自动标注。少

24、量机构正在研发。 马里兰大学设计和研发的 swoogle ; UMBC大学 eBquity实验室开发的 OWLIR; 改进型 :基于现有搜索引擎,对其输入输出接口 做语义升级。 5.2 查询扩展方法 基于同义词词典无约束扩展 基于同义词词典的有限扩展:基于信息增 益、互信息等数据特征 基于语义模型的有限扩展:扩展词来源于 同义词词典、本体概念及实例、上下位概 念等 语义扩展算法流程图 用 户 构 建 语 义 树 语 义 候 选 扩 展 词 集 统 计 候 选 扩 展 词 集 + 统 计 信 息 初 始 查 询 W o r d N e t 扩 展 词 集 检 索 文 档 返 回 文 档 重 排

25、序 显 示 排 序 后 的 结 果 集 输 入 查 询 词 初 检 文 档 共 现 模 型 统 计 最 终 扩 展 词 集 剪 枝 语 义 树 + 选 择 统 计 扩 展 词 构建语义树 语义词典 WordNet 构建语义树 b a n k E n t i t y P h y s i c a l e n t i t y O b j e c t , p h y s i c a l o b j e c t G e o l o g i c a l f o r m a t i o n , f o r m a t i o n S l o p e , i n c l i n e , s i d e b a

26、 n k W a t e r s i d e R i v e r b a n k R i v e r s i d e E n t i t y A b s t r a c t e n t i t y A b s t r a c t i o n G r o u p , g r o u p i n g S o c i a l g r o u p O r g a n i z a t i o n , o r g a n i s a t i o n I n s t i t u t i o n s , e s t a b l i s h m e n t F i n a n c i a l i n s t i

27、 t u t i o n , f i n a n c i a l o r g a n i s a t i o n B a n k , , b a n k i n g c o m p a n y T h r i f t i n s t i t u t i o n S a v i n g a n d l o a n , s a v i n g a n d l o a n a s s o c i a t i o n M u t u a l s a v i n g s b a n k , M S B R i v e r , b a n k r i v e r 基于语义模型的查询扩展 构建领域本体和训练

28、集。对查询请求预分 类,为扩展提供外部语境。 对源句做语法语义分析,提取概念集合及 概念之间依存关系,计算其统计权值和语 义结构权值,得到语义模型。 扩展查询词 :同义词无约束扩展,信息增 益约束扩展,互信息扩展,语义模型约束 扩展。 统计方面的扩展 基于互信息的统计模型 带有衰减因子的互信息 其中, , 表示词和 词在所有窗口单元中的平均距离。表示词间相 关性随词间距离衰减的剧烈程度。 )(*)( ),(l og*),(),( ypxp yxpyxpyxMI ),(),(),( yxDyxMIyxD M I ( ( , ) 1 )( , ) D i s x yD x y e ( , )Dis

29、 x y 5.3 重排序 基于语义相似度计算:向量空间、潜在语 义分析变换。 个性化要求 对片断的抽取 返回文档排序 文档和查询的相似度计算 根据相似度的高低排序返回文档 n j qj n j ij n j qjij ww ww iC 1 2 1 2 1 Semantic web应用 信息抽取 自动摘要 自动查询 Semantic web services 1 起源 2 web services框架 3 语义 web services结构 1 起源 在 web services技术中增加语义描述、发现 和推理能力。 Web services是分布式计算技术,具有 “单系统映射”特性。 Web

30、services的查找和匹配是基于名称或 属性的精确匹配,处于语法层次。 增加语义层是为了解决异构问题。 Web Services 框架 Web Services 组件。包括 3 种组件: 服务提供者; 服务代理; 服务请求者。 Web Services 操作。包括 3 种操作: 发布 /不发布 (Publish/Unpublish); 发现 (Find); 绑定 (Bind)。 Web services 工作原理 基础的 Web Services 平台是 XML + HTTP。 HTTP 协议是最常用的因特网协议。 XML 提供了一种可用于不同平台标记语言。 Web services 平台的

31、元素: SOAP (简易对象访问协议 ) UDDI (通用描述、发现及整合 ) WSDL (Web services 描述语言 ) Web services工作模式 Semantic web services层次结构 RDF组成 RDF Data Model RDF Schema RDF Syntax RDF Data Model 它包含一系列的节点 N; 它包含一系列属性类 P; 每一属性都有一定的取值 V; RDF Data Model是一个三元组: 节点,属 性类,属性值 ; 每一个 RDF Data Model可以看成是由节点 和弧构成的有向图。 RDF Schema 定义资源以及属性

32、的类别; 定义属性所应用的资源类以及属性值的类 型; 定义上述类别声明的语法; 申明一些由其它机构或组织定义的元数据 的标准的属性类。 RDF Schema(续) RDF Schema定义了 三个核心类 : rdf: Resource、 rdfs: Property、 rdfs: Class; 五个核心属性 : rdf: type、 rdfs: subClassof、 rdfs: seeAlso、 rdfs: subpropertyof、 rdfs: isDefinedBy; 四个核心约束 : rdfs: ConstantResource、 rdfs: range、 rdfs: Constra

33、intProperty和 rdfs: domain。 RDF Basic Concepts To make these statements machine-proccessable two things are needed: a system of machine-processable identifiers (for subjects, predicates and objects) without any possibilty of confusion between similar looking identifiers a machine-processable language

34、 for representing these statements and exchanging them between machines RDF defines a XML markup language, named RDF/XML, which allows to represent RDF statements. Uniform Resource Identifiers (URI) allow to identify and uniquely name things - even if they have no network-accessible location. RDF Mo

35、del As mentioned: RDF makes statements about resources Each statement consists of a subject, a predicate and an object http:/www.example.org/index.html has a creator whose value is John Smith http:/www.example.org/staffid/5232 http:/purl.org/dc/elements/1.1/creator http:/www.example.org/index.html s

36、ubject object predicate Web Ontology Language (OWL) is another effort developed by the OWL working group of the W3Consorsium. OWL is an extension of DAML+OIL. OWL is divided following sub languages. OWL Lite OWL (Description Logics) DL OWL Full limited cardinality OWL Lite provides many of the facil

37、ities of DAML+OIL provides. In addition to RDF/RDFS tags, it also allows us to express equivalence, identity, difference, inverse, and transitivity. OWL Lite is a subset of OWL DL, which in turn is a subset of OWL Full. AIST Meeting JPL, CA 2003 Web Ontology Language (OWL) 描述语言进化过程 扩展后的 OWL-S本体结构 OW

38、L-S中服务描述 S e r v i c e S e r v i c e M o d e l S e r v i c e G r o u n d i n g S e r v i c e P r o f i l e R e s o u r c e s S u p p o r t s D e s c r i b e s P r e s e n t s P r o v i d e s 描 述 服 务 是 做 什 么 的 描 述 服 务 是 如 何 访 问 的 描 述 服 务 是 如 何 工 作 的 原 子 资 源 或 复 合 资 源 Web Services and the Semantic Web (ServiceProfile) Profile Definition of Profile

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!