基于深度神经网络的知识库问答探讨 - 计算机软件

上传人:众众****夺宝 文档编号:169806937 上传时间:2022-11-17 格式:DOCX 页数:5 大小:14.93KB
收藏 版权申诉 举报 下载
基于深度神经网络的知识库问答探讨 - 计算机软件_第1页
第1页 / 共5页
基于深度神经网络的知识库问答探讨 - 计算机软件_第2页
第2页 / 共5页
基于深度神经网络的知识库问答探讨 - 计算机软件_第3页
第3页 / 共5页
资源描述:

《基于深度神经网络的知识库问答探讨 - 计算机软件》由会员分享,可在线阅读,更多相关《基于深度神经网络的知识库问答探讨 - 计算机软件(5页珍藏版)》请在装配图网上搜索。

1、基于深度神经网络的知识库问答探讨 - 计算机软件 计算机软件论文本文是一篇计算机软件论文,本研究首先对知识库问答的研究背景与意义进行了介绍,然后介绍了与其相关的技术,主要波及词的分布式叙述和深度神经网络两局部,针对知识库问答中实体检测阶段普遍存在的同名实体问题以及关系检测阶段信息丧失问题,本文设计了基于深度神经网络的知识库问答办法。1 绪论1.1 研究背景及意义随着互联网科技的开展与遍及,信息数据开始大量增长,如何在众多信息中寻找出有效的信息便显得极为重要,基于此出现了可以筛选出关键信息的搜索引擎1,如谷歌、百度和酷狗等。搜索引擎首先将互联网上大量的信息进行爬取并建立索引,当用户搜索时,根据关

2、键词或者组合关键词进行查找,依据相关性将检索结果返回给用户,在一定程度上节约了用户筛选信息的本钱。然而随着用户的需求精细化,传统的搜索引擎显示出了弊端,首先,搜索结果一般以网页的形式展示,用户需要花费时间进一步筛选。其次,检索过程中依据关键词的字面意思而非语义信息搜索2,容易出现信息丧失导致检索结果存在偏差。问答系统(Question Answering System,QA)3的出现较好的解决了上述问题,相比于传统的搜索引擎,问答系统有 2 个明显的优势,第一,用户在使用问答系统时,不仅可以使用关键词提问,还可以使用自然语言问题提问。第二,问题系统返答复案时,不是以网页的形式展示,而是直接精准

3、的显示问题的答案。现阶段谷歌搜索引擎可以根据用户提出的根底问题直接返答复案,与此同时,Freebase4、Yago5、DBPedia6、谷歌知识图谱7等大型知识库Knowledge Base,KB的出现掀起了知识库问答Knowledge Base Question Answering,KBQA8,9研究的热潮。知识库问答是指当用户提出自然语言问题时,对问题进行语义理解、语义匹配等操作,通过查找知识库中存储的三元组得到答案的过程。知识库中的知识一般用三元组表示,一个三元组用来描述一条事实,即,其中实体作为节点,关系作为边。由于多义性的自然语言和结构化的知识库三元组存在语义鸿沟问题,知识库问答目前

4、仍存在挑战,怎么让机器理解文字背后的语义信息,如何将自然语言转换为结构化的语句,便是其中一大难题。目前比拟流行的知识库问答办法主要分为三类:使用语义信息学习知识的语义解析、使用统计学的信息抽取、使用模式辨认视角解决问题的向量建模办法。.1.2 国内外研究现状1950 年,被誉为“计算机之父的艾伦.麦席森.图灵提出了闻名世界的图灵测试13,它主要用来判断计算机是否可以和人类一样拥有智商,而图灵测试中模拟人类进行语言交互便是问答系统的思想起源14,15。在 20 世纪 60 年代,由于当时的语料库较小,人工智能的开展还不够成熟,早期的问答系统主要用在专家系统和特定领域的人工智能系统16-18,之后

5、出现了面向开放域的问答系统19,20。随着互联网的快速开展,出现了许多结构化的知识库,基于此出现了新类别的问答系统,即知识库问答。对于一个自然语言问题,将问题进行理解和解析等操作得到逻辑形式,并通过查询语句在知识库中进行查找来得到正确答案,如何将自然语言问题转换为计算机能够理解的查询语句便是该研究的难题。目前主流的知识库问答有三大办法21,分别是基于语义解析、信息抽取和向量建模的办法。语义解析通过定义一些规那么和模板,将非结构化的问题文本转嵌入为结构化的逻辑形式,利用逻辑形式在知识库中进行查询并得到答案。信息抽取的思想是抽取出自然语言问题中的实体和谓词,通过在知识库中查询相对应的实体和谓词来得

6、到答案。与需要人工定义规那么、模板的办法不同,向量建模的原理是将自然语言问题和三元组嵌入到同一个低维向量空间中,使用问题的答案对各向量进行训练,计算向量空间中自然语言问题和知识库事实的相关程度,通过相似性排序得到答案。随着深度学习的快速开展,将深度学习与传统知识库问答办法结合的思想在实践中取得了出众的实验效果,下列将分别对这三种办法的研究现状进行详细的分析。.2 相关技术介绍2.1 知识库问答知识库存储着结构化的知识事实,物理世界中的概念以及之间的联系在知识库中用符号形式来描述,一般用三元组的结构存储,即,其中实体 1 和实体 2 是三元组中的顶点,关系代表了实体 1 和实体 2 之间的联系,

7、一般以边的形式存在,一个三元组代表了一个客观事实,通过大量的三元组,客观世界的知识便被联系和存储起来。常见的知识库一般有 Freebase、YAGO 和 DBpedia 等,本文研究基于 Freebase,它是在 2022 年公开的一个结构化知识库,主要包含 FB2M 和 FB5M 两个子集,分别包含 215 万、490 万个实体,图 2.1 展示了局部 Freebase 知识库。图 2.1 Freebase 知识库数据例如.2.2 词的表示在处理自然语言问题时,首先要将自然语言问题文本转换为向量,即将问题文本中的词语用数学中的向量表示,如图 2.3 所示,在深度学习领域,目前文本的表示办法主

8、要有三种:one-hot 表示、整数编码和词嵌入,不同的实验任务故选择适宜的办法,接下来本文将详细介绍 one-hot 编码和词嵌入。图 2.3 NLP 领域常见文本表示办法one-hot 编码又称作一位有效编码,是最常见的文本表示办法,该办法首先需要构建词汇表 V,假设词汇表中词语数量为 N,那么词向量的维度也为 N,即使用 N 位状态存放器对 N 个状态进行编码。将单词在词表中的位置与嵌入向量空间的位置进行比拟,假设位置相同,将值设置为 1,位置不同将数值设为 0,每个状态都有独立的存放器,且在同一个时刻,只有一位有效。.3 基于 BI-LSTM-CRF 的实体链接 . 183.1 命名实

9、体辨认 . 183.1.1 整体模型 . 183.1.2 词嵌入层 . 194 基于多粒度注意力机制的关系检测 . 284.1 基于多粒度注意力机制的关系排序 . 284.1.1 整体模型 . 284.1.2 问题编码层 . 285 总结与展望 . 374 基于多粒度注意力机制的关系检测4.1 基于多粒度注意力机制的关系排序4.1.1 整体模型关系检测的目的是为了从众多候选关系中找到最能描述问题和答案的关系,与该关系相连的答案便是最终答案,主要依据问题模式和候选关系的相似性来排序,一般被定义为序列匹配问题。为了丰盛候选关系的语义信息,获取问题模式和候选关系之间深层次的特征匹配信息,本研究分别从

10、单词级和语义级表征候选关系,然后分别从单词级和语义级构建问题模式和候选关系之间的匹配,并使用注意力机制来捕获深层匹配特征信息,多粒度注意力机制的关系检测模型如图 4.1 所示。图 4.1 多粒度注意力机制关系检测模型.5 总结与展望本研究首先对知识库问答的研究背景与意义进行了介绍,然后介绍了与其相关的技术,主要波及词的分布式叙述和深度神经网络两局部,针对知识库问答中实体检测阶段普遍存在的同名实体问题以及关系检测阶段信息丧失问题,本文设计了基于深度神经网络的知识库问答办法,具体来说,本文的知识库问答办法主要可以分为实体检测和关系检测两局部,实体检测又分为命名实体辨认和实体消歧组成,并对每一局部的

11、实验办法、实验 结果 和 实 验分析进行了详细的阐述,实验的数据集为单关系问答数据集SimpleQuestions。整体来说,本文的工作总结如下:1针对同名实体一词多义的问题,采用了 BI-LSTM-CRF 模型来对自然语言问题进行序列标注得到实体,同时,开掘出自然语言问题中关系词和知识库中候选实体之间的潜在联系,利用知识库中候选关系信息对辨认出来的实体进行消岐,从而减小了命名实体辨认结果的噪声数据,提高了命名实体辨认的准确率。BI-LSTM-CRF 模型在SimpleQuestions的子集FB2M和FB5M上的实体辨认准确率分别到达了79.8%和78.7%,为后续的关系检测步骤提供了良好的

12、根底。2针对自然语言问题文本表述存在多样性,设计了一种基于词性的自然语言问题中关系词的提取办法,通过计算问题关系词与候选关系之间的字符串相似性和语义相似性,实现将问题关系词和候选关系进行映射,以此来缓解实体链12计算机软件论文接过程中同名实体存在歧义的问题,提高了关系映射的准确率。3针对多样性的自然语言问题与知识库三元组存在语义鸿沟的问题,本文从多个角度表示候选关系以获取丰盛的语义信息,由于单一的注意力机制不能较好的捕获两段文本之间的相关程度,本文使用多个注意力机制对问题模式和候选关系进行建模,从不同的角度去学习它们之间的深层匹配信息并取得了较好的效果,改善了向量聚合时信息丧失的问题,多粒度注意力机制模型在 SimpleQuestions 上的关系检测准确率到达了94.1%,整体来说,本文设计的知识库问答办法在实体检测阶段能够辨别出同名实体,到达了实体消岐的效果,在关系检测阶段,一定程度上能够改善信息丧失问题,提高了知识库问答的准确率。参考文献略12

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!