基于概念图知识表示的问题回答系统的研究

上传人:沈*** 文档编号:88396953 上传时间:2022-05-10 格式:DOC 页数:11 大小:370KB
收藏 版权申诉 举报 下载
基于概念图知识表示的问题回答系统的研究_第1页
第1页 / 共11页
基于概念图知识表示的问题回答系统的研究_第2页
第2页 / 共11页
基于概念图知识表示的问题回答系统的研究_第3页
第3页 / 共11页
资源描述:

《基于概念图知识表示的问题回答系统的研究》由会员分享,可在线阅读,更多相关《基于概念图知识表示的问题回答系统的研究(11页珍藏版)》请在装配图网上搜索。

1、基于概念图知识表示的汉语问题回答系统的研究摘要:问题回答的核心是自然语言理解基础上的搜索问题.因汉语的灵活性和复杂性,使汉语的理解成为汉语问题回答研究的技术难点.现有汉语问题回答依靠关键字查询方法信息检索和答案抽取.系统实质是关键字匹配,没有语法和语义分析,属于简单自然语言理解范畴,且答案准确率低.本文以概念图知识表示为基础,按汉语语法和语义分析,形式化定义了问题回答,提出了基于概念图知识表示的汉语问题回答的系统结构和研究方法,并归纳出汉语中常见疑问句型,构造了疑问句概念图.经测试分析,疑问句概念图反映了现有疑问句基本情况,解决方案切实可行.该课题的研究,对问题回答和自然语言理解的研究具有一定

2、参考价值.关键词:概念图;知识表示;问题回答;自然语言理解中图法分类号:TP391 文献标识码:AResearch on the Questions Answering System in Chinese Based on Knowledge Represent of Conceptual GraphsPeiqi Liu1,Zengzhi Li2(1School of information and control engineering, Xian university of architecture and technology, Xian 710055, China,2 School o

3、f electronics and information engineering, Xian Jiaotong university, Xian 710049, China)Abstract: The core of questions answering is a searching based on natural language understanding. Because of the flexibility and complexity of Chinese,the study of the Chinese question answering has become very d

4、ifficulty. The current Chinese questions answering relies on keywords to query and retrieve the answer. The nature of these systems is the keyword matching. It hasnt any syntax and semantics analysis and belongs to simple natural language understanding. Its answering accuracy is low. In this paper,

5、the research methods of the questions answering in Chinese syntax and semantic analysis, which based on the knowledge representation of the conceptual graphs, is proposed. According to the methods, the questions answering is formal definited,and the system structure is designed. The conceptual graph

6、s of the interrogative sentences in Chinese are also constructed by common statement in Chinese interrogative sentences in this paper. After test, the conceptual graphs of the interrogative sentences reflect the basic situation of existing questions in Chinese, and the solution is feasible. The rese

7、arch methods are valuable for the question answering and natural language understanding.Keywords: Conceptual graphs; Knowledge representation; Question answering; Natural language understanding问题回答(Question Answering, QA)是自然语言处理领域的一个相当活跃分支,其研究内容是理解用户用自然语言提问,通过大规模信息资源自动检索,给出满足用户需求的准确答案.问题回答系统主要技术是自然语

8、言理解.国外对问题回答系统的研究较早,并已取得了可喜成果,较著名的系统有美国麻省理工学院基于Web的Start系统,密歇根大学的面向开放领域多种语言的AnswerBus系统等.国内在这方面的研究起步较晚,由于汉语语法、语义和表示形式的复杂性,使中文问题回答系统成功的案例较少.国内比较有名的系统是中科院研制的知识问答系统1. 问题的提出在目前的QA中,尽管输入为自然语言语句,但是它们必须先从自然语言中抽取关键词、标注词性、统计词频,实际上还属于关键词匹配阶段,例如,问题“中国的首都是哪里?”必须抽取关键字序列“+”2,并进一步扩展为关键字序列“+”等,显然是一种关键词匹配,是自然语言理解中最简单

9、的理解形式,其效果也值得进一步改进.本文通过对现有的QA的分析与研究,提出以概念图为基本知识表示,从自然语言的语法和语义方面对QA系统的方法和结构深入研究,充分理解输入语句的语义,设计一个具有语义分析功能的问题回答系统,并返回准确的问题答案.2. 基本概念 基于概念图的问题回答系统和目前的问题回答系统有很大差别.在系统分析和设计中,首现对概念图和问题回答的基本概念作出必要定义.2.1 概念图 概念图(Conceptual Graphs,简称CGs)是在语义网络基础上发展起来的一种集语言学、心理学和哲学为一体的图形知识表示方法3,可表示自然语言的语义知识和揭示深层格关系,已成为普遍接受的知识表示

10、形式. B.J.Granet等已证明概念图是一种优秀知识表示方法.定义1 概念图是一个由概念节点和关系节点组成的有向二分连通图,可表示为:CGs=(C, R, F)其中,C为概念节点集合,R为关系节点集合,F(CR)(RC)为关系集合.在概念图中,概念节点表示领域中概念、实体、属性等,由矩形框中冒号分开的类标识符和参考域组成;关系节点用园中的关系标识符表示,揭示了概念节点间的关系;有向弧表示节点间的作用关系.例如,语句”A cat eats meat with paw”的概念图如图1所示.图1.自然语言的概念图表示其中AGNT、OBJ和MANR为关系节点,CAT:*、EAT、MEAT和PAW为

11、概念节点.图1直观、形象、易于理解,是概念图的显式表示.为便于计算机处理,用方括号代替矩形框,用圆括号代替圆形,得到概念图的线性表示.图1可线性表示为: EAT(AGNT)CAT: *(OBJ)MEAT(MANR)PAW.在本文的问题回答系统的研究中,将概念图作为基本知识表示方法.2.2 问题回答系统问题回答系统是根据户用自然语言请求,通过对数据库和网络资源检索,自动生成满足用户特定需求的准确答案.根据问题回答系统的工作过程,本节给出一些基本概念.定义2 一条汉语语句S可定义为:S=q0q1q2qn其中qi(i=0,1,n)为S的词汇.对于任意词汇qi(i=0,1,n-1)位于qi+1之左可记

12、为qiqi+1.显然, 汉语句法是语句词汇间的一种序关系.不同词序对应不同语句,具有不同语义.但这些词中有些是关键词汇,有些是反映语气和修辞手法的修饰语,还有一些同义词.例如“中国的首都是哪里?”的关键字序列为“+”.在问题回答系统中,主要关注关键字系列.因此,一个具有实际意义语句可定义为:定义3 一条汉语语句S可定义为:S=k0k1k2km其中ki(i=0,1,m)为S中抽取的关键字.可以看出,不同语句S1和S2,经预处理后,可能得到相同的关键字序列,即S1和S2功能等价.例如,“中国的首都是哪里?”和“哪里是中国的首都?”就是等价语句.定义4 语句S1和S2经过预处理y后,得到相同的关键字

13、序列,即:y(S1)=y(S2)=k0k1k2km其中i=0,1,m,称S1和S2功能等价,记为S1S2.显然,语句间的“”关系是一个等价关系.通过关系“”可将搜索到的答案语句集分类,形成答案的划分.问题回答系统根据用户问句,在资源集中搜索和划分,得到相关的答案集.一个完整的问题回答系统可形式化定义为:定义5 问题回答系统是一个四元组:(S0,C,F,A)其中,S0为提交系统的自然语言语句,y(S0)=k0k1k2km,关键字集K=ki|i=0,1,m;C(Contexts)为资源集,是问题抽取的上下文; FKC为K与C间的关系;AF (Answers)为答案集. 定义5是传统意义上的问题回答

14、系统,目前的问题回答系统都属于该范畴.本文在传统问题回答系统基础上,提出基于概念图知识表示的问题回答系统.该系统可形式化地定义为:定义6 基于概念图知识表示的问题回答系统是一个四元组:(G0,C,P,GA)其中,G0为语句S0的概念图,y(S0)=k0k1k2km,关键字集K=ki|i=0,1,m;C=G1,G2,Gk为一个资源集,系统从C中抽取相关答案图;操作集P=F,P,操作F为相关概念图的最大连接G=F(Gi1,Gi2,Gir),它保持了概念图间的相同部分,增加了概念图间的不同部分,操作P为概念图的投影匹配,P:G0G,G0是G0在G 上的投影, G0与G0同构且是G的子图;GA是问题回

15、答系统的答案GA=PG0,是相容概念图G的子图,GA对应得语句SA为问题的答案. 可以看出,基于概念图知识表示的问题回答系统和传统的问题回答系统有本质差别,其最大优点是答案为一个概念图,可准确、简洁回答问题.在定义6中,问题回答系统是从初始概念图G0开始,经过一系列的推导、搜索、计算等变换,得到答案概念图GA,整个过程是一个有限自动机的运行过程,可以通过有限自动机计算实现.3. 问题回答系统结构本文在一般问题回答系统模块结构的基础上2,4,设计了基于概念图知识表示的汉语问题回答系统的模块结构.3.1 问题分析图2. 问题分析模块问题分析模块见图2.在图中,预处理器对问句切词、同义词处理,再由词

16、法分析器识别词汇生成词汇表.若词汇不在词典中,则系统报错.另外,词法分析还要对不重要的词汇适当忽略,使系统具有足够灵活性.句法分析根据词汇表、词典和短语结构语法规则分析句法.对正确语句生成句法分析树,对错误语句提供相近句法.概念图生成器将句法分析树转换成概念图,然后同图式库中图式匹配/推理,得到符合语义的概念图,即正则图,完成语义分析. 该正则图是信息检索和形成答案时概念图匹配的依据. 3.2 信息检索信息检索模块主要包括搜索代理、概念图生成和匹配/推理三部分.其中,搜索代理根据问题处理部分生成的正则图,启动搜索引擎,在网络、数据库和知识库中搜索答案,并将搜索结果发送到问题分析模块,形成搜索结

17、果的正则图集,称为搜索集,作为抽取答案的依据(见图3).图3信息检索模块3.3答案抽取答案抽取模块包括概念图聚类、背景图生成、投影匹配和自然语言生成几部分.首先计算搜索集合中正则图的关联度,进行概念图聚类,弃除不满足阈值的概念图类,形成新概念图集.再经过概念图的最大连接匹配(或相容匹配)算法将相关度较高的概念图匹配连接,形成背景图(Background Graphs,简称BG).再将工作概念图向背景概念图投影匹配,组成答案概念图.最后语言生成利用扩展短语结构文法(APSG)库,将答案概念图转换成自然语言文本.为了使生成语言符合自然语言规范,可由优化处理部分进行优化处理.答案抽取模块见图4.图4

18、答案抽取模块4. 疑问语句的概念图表示汉语疑问句的表达方式灵活多变.按语言行为可分为直接和间接语言行为类型5.像反复、是非、选择和特指等疑问句属于直接语言行为类型;指令(包括请求、建议和命令)、判断、应酬、阻止、反驳、责怪、催促和提醒属于间接语言行为类型.在疑问句分类基础上,依疑问词和谓语最近原则6,将一个疑问句定义为:定义7 一个疑问句可定义为三元组:(Q,Fn,S)其中Q为疑问词,Fn为疑问词在句子中的语法功能,S为将疑问词所在部分泛化后的完整陈述句.例如, 语句“谁发现了南极大陆?”可表示为(“谁”, “主语”, “某人发现了南极大陆”).定义8 疑问句对应的概念图可定义为:Q:GS其中

19、Q为疑问词,GS为泛化后陈述句的概念图,语句中疑问词的功能体现在为概念节点所指域“*”.例如, 语句“谁发现了南极大陆?”的概念图为:谁:发现(AGNT)PERSON:*(OBJ)新大陆 (LOC)南极. 其中,概念节点“PERSON:*”是对“谁”的泛指,所指域“*”表示不确定,可通过所指域运算律确定.其运算律有三种常见形式,*=*,*a,b,c=a,b,c,a,b,ca,b,d =a,b.在疑问句表示中,主要表示概念图.概念图由概念节点和关系节点组成.按照面向对象观点,现实世界中万物都可抽象为对象,对象有名称、大小、颜色、所在位置等属性.根据常见疑问句询问对象,可对对象各种属性提出疑问,表

20、1列出部分疑问句概念图中常用的概念.表1. 部分特征疑问词和概念图中的概念概念功能例句PERSON问人谁发现了南极新大陆?AGE问年代那年发现了南极新大陆?NAME问名称这只狗叫什么名字?DATE问日期今天是几月几日?TIME问时间现在是几点钟?LOCATION问地方西安在哪里?NUMBER问数量有多少人参加了毕业典礼?ORGANIZATION问组织机构西北教育网管理单位是哪?SATAE问状态这学生的学习如何?OTHER问其它特征这座楼的外表是什么颜色?另外,领域中任何概念、实体、属性等都可作为概念图的概念.在构造概念图时,除必要的概念节点外,还需明确概念间的关系.概念间关系比较复杂,分为包含

21、、从属、类同、组成等关系7.本文结合现代汉语基本句型和格文法,归纳了疑问句概念图的部分关系(详见表2).表2. 常见关系关系名称关系基本定义包含关系INCL(include)部分和全体、类和子类间关系从属关系DEPE(dependency)类与其小类间的关系类同关系SIMI(similarity)类同其它类间具有相似性质等同关系SAME两类相同组成关系COMP(composition)主体和个体间的关系分类关系TYPE(type of)子类属于超类的一种事实代理AGNT动作发出者对象OBJ动作作用对象类型ISA类型场所LOC动作执行场所方法WAY动作执行方法根据表1和表2的定义,总结了汉语基本

22、疑问句5,6,设计了8种常用句型的概念图.(1) 疑问代词主谓型在这种句型中,疑问代词作为疑问句主语.例如,“谁发现了南极大陆?”就属于这种句型,其基本概念图为:谓语(AGNT)主语(OBJ)宾语.例如,“谁发现了南极大陆?”的表示形式见前面的例子.(2) 主动+疑问代词宾型在这种句型中,用疑问代词作疑问句的宾语.例如,“欧盟总部是哪里?”就属于这种句型,“哪”作句子宾语,对宾语提出询问,其基本概念图可线性表示为:谓语(AGNT)主语(OBJ)宾语.例如,“欧盟总部是哪里?”可表示为:是(AGNT)欧盟总部(OBJ)位于 (LOC)LOCATATION:*.其中,概念节点“LOCATATION

23、:*”是对具体方位的询问,所指域中“*”表示不确定的地方.(3) 主疑问代词谓语中心语型在这种句型中,用疑问代词询问一种状态.例如,“他怎么了?”就属于这种句型,其基本概念图可线性表示为:谓语(AGNT) 主语例如,“他怎么了?”可表示为:STATE:*(AGNT)他其中,概念节点“STATE:*”是对一种状况的询问,所指域中的“*”表示不确定是哪种状况,可能是身体健康,也可能是情绪激动,还可能是处于困境,这要和具体的语境结合起来判断.(4) 主疑问代词状 +动/形/型在这种句型中,用疑问代词作状语,是对主语形成的方式和方法的一种询问.例如,“风是怎么形成的?”就属于这种句型,其基本概念图可线

24、性表示为:谓语(AGNT)主语(WAY)宾语.例如,“风是怎么形成的?”可表示为:形成(AGNT)风(WAY)METHORD:*.其中,概念节点“METHORD:*”是对方法的询问,所指域中“*”表示不确定的方法.(5) 主动/形+疑问代词补型在这种句型中,用疑问代词作补语,是对谓语的方式、状况等补充情况的一种询问.例如, “那家公司发展得怎么样了呢?”就属于这种句型,其基本概念图可线性表示为:谓语(AGNT)主语(STA )宾语.例如,“那家公司发展得怎么样了呢?”可表示为:发展(AGNT)那家公司(STA)STATE:*.其中,概念节点“STATE:*”是对状况的询问, “*”表示不确定状

25、况;关系节点“(STA)”是对“发展”状况的进一步描述.(6) 疑问代词定 +中心语型用疑问代词作定语,是对名词的修饰情况的一种询问.例如, “UK是哪的简称?”等就属于这种句型,这种句型较复杂,具体概念图要根据实际定语同中心词间关系确定,疑问词和中心语间的关系的概念图可线性表示为:中心词(LOC)LOCATATION:*(STA)STATE:*(WAY) METHORD:*.例如,在“UK是哪的简称?”中,中心词为“简称”,用“哪的”修饰中心词.这条语句可表示为:简称(AGNT)UK(LOC)LOCATATION:* (7) 反复疑问型 反复疑问句主要部分为”W不W”,是对行为或状态的询问,

26、可表示为”xW”,其中x是对W的肯定或否定,取值为空()或非().当x=时,表示对W的肯定,可省略.例如,”你吃不吃饭?”就属于这种类型,它可表示为:x吃(AGNT)你(OBJ)饭.(8) 选择疑问型选择疑问句选择部分为”W1还是W2”,其中W1和W2词性相同.在概念图中,选择部分可表示为”X:W1|W2”,所指域中的W1|W2表示X可取值W1或W2.例如, ”你去北京还是南京?”就属于这种类型,它可表示为:去(AGNT)你(OBJ)LOCATATION:北京|南京.5. 实验测试汉语问题回答系统是一个建立在自然语言语义分析基础上的系统.在汉语问题回答系统中涉及到诸多问题,本节主要针对汉语疑问

27、句句型和概念图生成问题进行简单实验测试.在实验测试中,为了使实验测试结果具有代表性和广泛性,从网络、报纸、杂志等媒体上收集了300个汉语疑问句.通过切分词汇、词汇标记、语法分析、概念图生成和图式匹配等一系列工作,得到300个概念图.经人工检验,其中253个语句结构简单,语法清晰、标准,生成的概念图完全正确;21个语句结构简单,但存在一些语法省略现象,其概念图基本反映了疑问句的含义;17个概念图结构正确,但因缺乏语境,无法断定概念图意义的正确性;9个语句因句法结构复杂,生成的概念图完全错误.经过以上实验测试可以看出,在生成的概念图中,84.3%完全正确,7%基本正确,5.7% 正确性不确定,3%

28、不正确.如果在输入环节中对疑问句的结构进一步规范化,生成概念图的正确率可达91.3%,基本上可以满足实用需要.6. 结束语汉语问题回答系统是一个新的研究领域,因汉语自身的复杂性和灵活性,增加了研究难度,且成功案例较少.本文主要从汉语自然语言理解的角度,提出以概念图知识表示为基础的研究方法,较系统地定义了汉语问题回答系统,设计了问题回答系统的系统结构,定义了疑问句概念图中常用的概念和关系,并结合典型汉语疑问句型设计了概念图.该课题的研究,对汉语问题回答系统的设计和研究具有一定参考价值.参考文献:1 刘里,曾庆田.自动问答系统研究综述J.山东科技大学学报,2007.10,26(4):73-762

29、JLA Ke-1iang,et al.Query expansion based on set theory in Chinese question answering systemJ. Journal of Jiangxi normal university,2008.4.32(2):211-2143 John F. Sowa. Conceptual structureM. UK: Addison Welslely,19844 张亮,黄河燕,胡春玲等.中文问答系统模型研究J.情报学报,2006,4,25(2):197-2015 尹洪波等.现代汉语疑问句的言语行为类型J. 江汉大学学报(人文科学版),2007.6,26(3):47-516 孙昂,江铭虎等.基于句法分析和答案分类的中文问答系统J.电子学报,2008,36(5):2008 833-8397 黄康,袁春风.基于领域概念网络的自动批改技术J.计算机应用研究,2004,11:260-262文档可自由编辑打印

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!