基于错误驱动的汉语词性标注研究终极版

上传人:沈*** 文档编号:133140660 上传时间:2022-08-09 格式:DOC 页数:55 大小:436.50KB
收藏 版权申诉 举报 下载
基于错误驱动的汉语词性标注研究终极版_第1页
第1页 / 共55页
基于错误驱动的汉语词性标注研究终极版_第2页
第2页 / 共55页
基于错误驱动的汉语词性标注研究终极版_第3页
第3页 / 共55页
资源描述:

《基于错误驱动的汉语词性标注研究终极版》由会员分享,可在线阅读,更多相关《基于错误驱动的汉语词性标注研究终极版(55页珍藏版)》请在装配图网上搜索。

1、目 录摘 要IABSTRACTII第1章 绪论11.1论文背景11.2论文意义11.2.1国外重要语料库简介21.2.2国内重要语料库简介31.2.3词性标注措施研究现状41)基于规则的措施42)基于记录的措施53)规则与记录相结合的措施71.2.4论文各章节安排8第2章 基于极大熵的词性标注92.1最大熵原理92.2最大熵建模92.2.1样本特性描述112.2.2数据训练112.3特性选择122.3.1问题的提出122.3.2特性选择实验13第3章 汉语兼类词和词性标注错误研究163.1汉语的词性兼类问题163.2兼类词标注中的错误分析和使用措施183.2.2训练模型进行兼类词标注中的错误输

2、出分析193.2.3兼类词的概率特性函数25第4章 实验方案和分析274.1实验设计274.1.1实验语料描述274.1.2实验工具284.1.3实验方案301.概率特性模型302.外部知识模型313.子分类模型324.2实验成果及分析334.3下一步的工作34总结与展望355.1论文工作总结355.2展望36参照文献37致 谢39附 录401.主程序源代码:402.有关的成果截图48摘 要随着互联网文化和经济的飞速发展和信息爆炸时代的到来,可以在短时间内解决大规模文本且从中挖掘和抽取语言信息的计算语言学迅速地成长起来。语料库的规模扩大和切分标注水平的提高成为迫切的需要,以计算语言学为主的多语

3、言语料库切分和标注技术越来越受到语言学专家的注重。要使语料库真正为提高自然语言解决的水平服务,就必须对语料库进行深度挖掘和精细加工。词性是对语言进行语法、语义、语用分析的基本和必要前提,如何解决语料库的词性标注问题仍是当今的一项重要的基本工作。汉语词性标注的成果涉及基于记录和规则两种解决措施。语言学工作者们常用的记录算法模型,如最大熵模型、隐马尔可夫模型和决策树分析等进行大规模的词性切分和标注,再结合规则模板或者手工编制的排歧词典对通过记录算法训练的模型进行择优、排歧,从而达到较为抱负的成果。本文在简介了提出的汉语词性标注方案也是规则和记录结合的措施,一方面在极大熵标注模型的基本上给出了一种汉

4、语词性标注方案,并提出基于兼类词错误学习的思想。该方案有别于以往单纯依托算法和规则模板的常规措施,从原标注系统的标注错误样本中获取上下文,运用上下文信息形成的概率特性函数计算出容易出错的词的特性概率。此外,提出在记录的基本上加入外部知识库和分类器的联合修正算法,较好地完毕了针对兼类词复杂类项的标注任务,缩短了模型运营占用的时间。核心词:汉语词性标注,兼类词错误驱动,最大熵ABSTRACTIn the recent years, with the rapid development and enlargement of the Chinese Corpus and annotation tech

5、nologies, a large scale of language block based at nationality language and different types of tagging feature musters appeared. The researches of the deep-processing methods and relevant algorithms are in need for the advancement of Nature Language Processing. Just like the other language, the firs

6、t step toapproach Chinese corpus knowledge is part-of-speech tagging.Annotation systems which can run on the computers supports the computational linguistics which have attracted wide concerns from therelated fields such as Artificial Intellegence.There are several annotating solutions which mostly

7、base statistical algorithm and rules which was writted manually. Such as the Maxent Entropy model and Hidden Markov ModelRule, which integrated different rules-templates can provide tagging tools for Natual Laguage.But the tagging results are not good enough to apply to the deep level annotation.Acc

8、ording to the statiscal examples which are collected from multiwo:rds annotation error results in system, this essay will introduce three parts of appending models for Part-of-Speech task based at Maxent Entropy model. A new error-based method composed of events with feature probability which was ca

9、lculated in advanced was held out to choose features templates for multi-word.KEYWORD: error-driven part-of-speech annotation maxent entropy第1章 绪论1.1论文背景由于语料库语言学的发展,语料库的容量不断扩大,目前,数千万词甚至于数亿词的语料库己经不算少见。但是要使大规模语料库真正能为自然语言解决服务,必须对语料库进行加工。而其中,词性标注是一项重要的基本工作,对于进一步研究语法解决具有重要的价值。本节一方面简介某些语料库,然后简介基于语料库的词性标注研

10、究的发展状况。为了更高速有效地存取和加工语料库所拥的信息,人们运用计算机的迅速运算能力和强大的存储能力开发了大量专用软件,使计算机语料库迅速成为语言研究的一种普遍资源。语料库和语料库语言学在当今语言研究由高度抽象转向语言的实际应用之过渡中起着十分重要的作用:一是提供真实语料;二是提供记录数据;三是验证现行的理论;四是构建新的理论。这些可以说是语料库和语料库语言学的实用价值。提供真实语料可以说是词典编纂的生命线。目前流行的英语词典几乎所有是基于大规模语料库编纂而成的。基于大规模语料库的英语语法书也已经问世。通过大规模语料库建立记录模型成为语言信息解决和加工的主流模式。先前基于规则的机器翻译、语音

11、合成与辨认、文语转换等如没有大规模语料库的数据支持,要获得好成果是不可的。语料库为应用语言学的研究提供了丰富的语言材料。语料库语言学使得在语言理论、语言史研究和句法、词法分析及自动语法分析方面得到了充足的应用。在对语料库信息的加工解决过程中,词类标注是一项很重要的工作。它的任务就是给语料库中的每个词赋一种合适的词类标记。由于英语、汉语等许多自然语言中都存在着大量的词的兼类现象,因此给语料库的自动词类标注带来了很大困难。词类歧义消解(Grammatical Category Disambiguation)已成为自动词类标注1.2论文意义兼类词标注精确限度对词性标注的精确率影响非常大,直接关系到背

12、面的句型划分、机器翻译等工作效率,因此在汉语词性标注过程中重点需要解决的是兼类词的歧义问题。短语标注,依存关系标注,句法功能标注,句型标注,义项标注等等。但这些深加工都必须在词语切分和词性标注的基本上进行。可见,兼词的词性标注成为任何一种汉英机器翻译系统都要优先解决的问题。近年来,在汉语的词性标注上,开发了基于概率记录模型的词性标注系统和基于规则的词性标注系统,这两种类型的词性标注系统虽然总体的词性标注对的率较高,但对兼类词的词性标注对的率却较低,至使其对的率难以进一步提高。兼类词多种多样,每个词的词性2-5个不等,把它根据模型的记录成果定量地划分到一种固定的词性类中较为困难。本文提出的兼类词

13、标注方案就是针对这种状况提出了一种从易出错的词性特性和规则出发,有别于单纯依托算法的常规措施,加入特性概率模型和外部知识库修正,可以高质量地完毕针对兼类词的标注任务。1.2.1国外重要语料库简介国外对语料应用研究开展比较早,语料库数量和种类皆较丰富,比较有代表性的重要有如下几种。London-Lund口语语料库:收篇目87篇,每篇5000词,共为43.4万词,有具体的韵律标注(prosodic marking).AHI语料库:美国Heritage出版社为编纂Heritage词典而建立,有400万词。OTA牛津文本档案库(Oxford Text Archive):英国牛津大学计算中心建立,有10

14、亿字节。BNC英国国家语料库(British National Corpus): 1995年正式发布,使用TEI编码(Text Encoding Initiative)和SGML通用原则置标语言的国际原则(TheStandard Generalized Mark up Language, ISO 8879, 1986年发布)。ACUDCI美国计算语言学学会数据采集筹划:美国计算语言学学会(Theassociation for Computational Linguistics, ACL)倡议的数据采集筹划(DataCollection Initiative, DCI),其宗旨是向非获利的学术团

15、队提供语料,以免除费用和版权的困扰,用原则通用置标语言SGML统一置标,以便于数据互换。LDC语言数据联合会(Linguistic data Consortium):设在美国宾州大学,实行会员制,有163个语料库(涉及Text的以及speech的),共享语言资源。RWC日语语料库:日本新情报解决开发机构RWCP研制,涉及每日新闻4年的全文语料,语素标注量达1亿条。亚洲各语种对译作文语料库:日本国立国语研究所研制,中野洋主持,北京外国语大学参与。为了推动语料库研究的发展,欧洲成立了TELRI和ELRA等专门学会。跨欧洲语言资源基本建设学会TELRI (Trans-European Languag

16、e ResourcesInfrastructure)目的在于建立欧洲诸语言的语料库,现己经建成柏拉图(Plato)的抱负国(Politeia)多语语料库,建立了计算工具和资源的研究文档TRACTOR(Research Archive of Computational Tools and Resources),并在语料库的基本上建立欧洲语言词库EUROVOCA. TELRI每年召开一次Seminar。近来的一次Seminar在Lubljana, (Slovenia)召开(22.September一26.September.),主题是从语料库中自动抽取知识(Automatic knowledge

17、extraction).欧洲语言资源学会ELRA (European Language Resources Associationi)负责收集、传播语言资源并使之商品化,对于语言资源的使用提供法律支持。ELRA建立了欧洲语言资源分布服务处ELDA (European Language resources DistributionAgency),负责研制并履行ELRA的战略和筹划,还组织语言资源和评价国际会议LREC (Language Resources&Evaluation Congress),每两年一次。1.2.2国内重要语料库简介近几年国内在汉语句法标注语料库开发、自动句法分析和语言知识

18、获取方面重要有如下研究和进展:提出了涉及基本短语、功能语块、复杂句子等句法单元的汉语句法标记集;分阶段进行了建立汉语句法标注语料库的实验,开发了200万字规模的功能语块库和100万词规模的句法树库;对汉语句法规则和词语搭配知识获取以及句法分析器进行了摸索。1991年,国家语言文字工作委员会开始建立国家级的大型汉语语料库3,以推动汉语的词法、句法、语义和语用的研究,同步也为中文信息解决的研究提供语言资源,筹划其规模将达7000万中文。其语料要通过精心的选材,语料的选材受到如下限制:时间的限制:语料描述具有历时特性,着重描述共时特性。选用从1919到现代的语料(分为5个时期),以1977年后来的语

19、料为主。文化的限制:重要选用受过中档文化教育的一般人能理解的语料。使用领域的限制:语料由人文与社会科学类、自然科学类和综合类3大部分,人文和社会科学再分为8大类29小类,自然科学再分为6大类,综合类再分为2大类。重要选用通用的语料,优先选用社会科学和人文科学的语料。从1979年以来,中国就开始进行机器可读语料库的建设,初期建立的重要的机器可读语料库有:汉语现代文学作品语料库(1979年),527万字,武汉大学。现代汉语语料库(1983年),万字,北京航天航空大学。中学语文教材语料库(1983年),106万8千字,北京师范大学。现代汉语词频记录语料库(1983年),182万字,北京语言学院。北大

20、计算语言所大规模的双语语料库,约11万双语对齐句子,北京大学。大规模汉语标注语料库(1999年),约1,300万中文,富士通与北大计算语言所合伙。大型藏文语料库,1亿3千万字节,用于藏文词汇频度和通用度的记录。西北民族大学。1.2.3词性标注措施研究现状在对语料库信息的加工解决过程中,词类(性)标注是一项很重要的工作。它的任务就是给语料库中的每个词赋一种合适的词类标记。由于英语、汉语等许多自然语言中都存在着大量的词的兼类现象,因此给语料库的自动词类标注带来了很大困难。词类歧义消解(Grammatical Category Disambiguation)已成为自动词类标注研究的重要课题。自从上世

21、纪六十年代Brown语料库建立以来,机器自动词性标注技术4在过去的四十近年里发展迅速。迄今为止已经浮现了众多的计算机自动词性标注技术,这些技术所依赖的理论措施大体可分为三类:第一类是基于规则的措施;第二类是基于记录的措施;第三类是规则与记录相结合的措施。1)基于规则的措施基于规则的自动词性标注措施最早出目前上世纪六十年代。随着语料库的建立,某些学者开始尝试对英语语料库进行机器自动词性标注,并逐渐形成了一系列基于规则的措施,其中最具代表性的是1971年开发的TAAGGIT标注系统。该系统采用86种词性标记,运用3300条上下文框架规则对100万词的现代美国英语Brown语料库进行自动词性标注5,

22、标注对的率达到了77%。此类基于规则措施的核心思想是计算机根据具体的上下文构造框架,套用语言学家总结的语言学规律来鉴定兼类词词性。以计算机对“研究”一词进行词性判断过程为例进行阐明。解决对象文本:“研究理论”vs“理论研究”。环节1:“理论”根据电子词典鉴定为单性词名词;环节2:“研究”根据电子词典鉴定为兼类词名词、动词;环节3:根据预设语言学规则a:名词之前为动词,判断“研究理论”中的“研究”为动词;环节4:根据预设语言学规则b:名词之后跟名词,判断“理论研究”中的“研究”为名词。 可以看出,此类措施的基本工作原理是在计算机内预先设立电子词典和规则库,计算机先运用电子词典对语料进行静态词性标

23、注(即列出对象词也许具有的所有词性),然后根据上下文信息,结合规则库规则进行词性消歧,最后保存唯一合适的词性。固然,所有规则都是以特殊的计算机语言编写而成的。基于规则的措施是归纳推理的过程,可以较好地对某一自然语料进行定性描述。但是这种措施所依赖的规则库是一种封闭的系统,所含的规则是有限的。值得注意的是,有限的规则无法对无限的不断变化着的自然语言进行一一描述,特别是在解决新词生词和特殊语言现象时,这种措施的局限性就十分突出了。这就决定了这种措施在自然语言解决中不也许具有很强的鲁棒性,其词性标注的对的率还不能满足实用性的规定。2)基于记录的措施 80年代在经验主义的影响下,记录措施逐渐被应用于语

24、料库词性标注中,并占据领域的主导地位。1993年,对LOB语料库的标注算法CLAWS一方面将概率记录模型应用于自动词性标注技术上,这种做法大大提高了机器词性标注的对的率,对英语语料词性标注的对的率可达到97%.随后的VOLSUNGA(基于转换错误驱动的学习型词性标注算法)算法更使英语语料库的词性标注技术趋近于实用性原则。 此类基于记录的措施的基本思想是,制定词性标志集,选用部分自然语料进行人工词性标注,再运用记录理论(如Bayes公式)进行运算得出记录规律,然后根据记录规律建立记录模型,机器根据记录模型进行词性标注。它与基于规则措施的最大的区别在于:在规则的措施中计算机根据的是人工制定的语言学

25、规则,而在记录的措施中计算机是根据大量自然语料的记录数据自行生成规则。CLAWS算法原名为“成分似然性自动词性标注系统”6,其重要工作原理是先对语料库中部分语料进行人工词性标注形成训练集,计算机对训练集中的任意两个相邻词性标志的同现概率进行记录,计算相邻词性标志的同现概率矩阵。机器进行词性标注时,先根据首词与尾词都为单性词的原则,从解决对象文本中截取有限长度的词串(即跨段),然后在同现概率矩阵中查找跨段中各相邻词的词性同现概率,求出同现概率笛卡儿积,所得概率积最大的为该跨段的最佳词性组合,这些词性作为最后标注成果输出。实验证明,采用CLAWS算法能提高词性标注对的率,但是不难看出CLAWS算法

26、存在某些缺陷。第一,这种多途径的算法使计算机运作复杂,工作量大,工作时间长,而成果只采用一种词性组合;在某种限度上来说,计算机大部分工作是无效的,这导致计算机工作效率低下。第二,兼类词词性种类数的增长和跨段长度的增长都会使计算机的工作量呈指数倍增长,也许导致计算机超负荷运作。1988年,针对这两点缺陷,德罗斯(Seteven DeRose)对CLAWS算法进行T改善,提出了VOLSUNGA算法。在VOLSUNGA算法中,计算机不再求笛卡儿概率积,而是运用“步步为营”的方略,即只对跨段中目前词具有最佳同现概率的词性组合伙进一步解决,放弃其他同现概率较小的词性构成。这种措施缩短了工作时间,大大提高

27、了计算机的工作效率。同步,在这种算法中,计算机还记录出每个词的相对标注概率,用它来辅助选择最后成果;这种做法进一步提高了自动词性标注的对的率。综合上述两种具体的记录算法,可以看出基于记录的自动词性标注措施侧重语料的定量描写。这种措施的长处在于:第一,提供的数据是客观的,受非语言因素影响小,可信度、真实度较高;第二,这是一种开放式的描述措施,符合自然语言动态变化的本质特性;第三,计算机不断记录和记录真实语言现象,可以不断生成新的规则,对新词生词和特殊语言现象的解决能力很强;第四,这是一种随机总结规律的措施,合用性强,可以应用于多种语言和语言现象的解决。但是,此类措施也存在着一定的局限性。一方面它

28、对于自然语言的理解不直观,无法对多种语一言现象进行明确地、定性地归纳总结。它所形成的规律只是基于数据的记录,因此是一种浮动的、似然的规律。另一方面,这种规律对语料的依赖性极强,规律稳定性较弱,不可避免地会带有片面性。再次,这种措施在进行词性判断时,只选择最佳概率的词性组合,排除其她选择;但是最佳概率并不是唯一的选择,也不一定就是最合适的选择。这种最佳概率事实上与目前解决的语料无任何关系,只是基于以往经验的判断,因此不可避免会浮现错误标注,制约了对的率进一步提高。此外,这种措施对多种自然语言现象不加辨别地使用单一复杂的概率算法,忽视了这样的现状:某些简朴语言现象只需要进行只字片语的规则阐明就可以

29、使机器迅速地做出对的判断,但是用记录措施却需要十几步甚至几十步的计算。因此采用单一的记录手段也许会导致计算机资源和时间的挥霍。另一方面,以自然语言为重要训练内容的状况下,将会产生训练样本的数据稀疏的问题,记录算法也许导致过度拟合,反而不如基于规则的措施好。3)规则与记录相结合的措施从前文的分析可以看到,基于规则的措施和基于记录的措施各有利弊,都不能较好地满足实际应用的需要。于是人们开始思考采用一种折中的方式,即把基于记录和规则的措施结合起来,取长补短,在运用大规模语料库建立记录模型的同步,使用一定的语言学规则。大规模的实验验证了这种折中的措施的确提高了机器自动词性标注的对的率和工作效率。目前诸

30、多专家、学者对此正进行大量的研究,并形成了某些行之有效的措施。人工集成、建造兼类词的鉴别规则库措施就是此类措施中的一种,它的核心思想是对记录算法得到的同现概率矩阵、兼类词词典和非兼类词词典进行再解决,并在解决过程中辅助以语言学规则。具体操作环节可表达为:1.计算机自动生成的兼类词词典。2.对兼类词词典进行人工解决,整顿生成人工解决后的兼类词词典。这种人工解决的成果是,词典中每个词都被注明所有也许的词性标记,并根据词性浮现的概率从大到小进行排序,同步每个词性后还附带典型例句。3.运用记录措施生成的词性同现概率矩阵和标注实例的验证成果,对词类搭配 组合进行定性描述,生成句法规则。4.根据语料中自然

31、语法现象获取词汇构造规则,进一步扩大完善规则库内容。5.计算机根据最新的规则库(涉及语言学规则和记录模型),进行词性标注。这种记录与规则并举的词性标注措施,融合了两者的长处,用语料库来获取各类知识(涉及句法规则、词汇搭配规则)和记录数据,在计算机上同步建立起规则库和记录模型。当计算机进行词性标注时,对简朴的语言现象直接调用语言学规则来保持机器较高的工作效率,节省资源;对于语一言学规则难以解决的现象,则借助记录模型来解决。与纯正的记录措施相比,计算机的工作效率有了明显的提高;而比起纯正的规则措施,这种措施运用记录模型弥补了规则措施规则有限性的缺陷,其解决自然语言的能力大大增强了,鲁棒性也提高了。

32、1.2.4论文各章节安排论文将描述一种我们已经实现的基于错误规则模型的词性标注系统。 第一章交代了论文背景和论文的设计初衷,然后简朴简介了国内外既有的出名语料库和目前用途较广、比较成熟的标注措施。第二章一方面描述了最大熵算法模型,随之给出了一种基于记录的特性选择方案,描述了如何选择有效特性进行标注,并引入了专门针对兼类词的概率特性函数和外部知识的伪事件。第三章是对词性标注错误的定性和定量分析,通过度析,我们得到了某些有效的改善记录标注系统性能的规则集。第四章描述我们的测试实验,我们比较了采用记录标注系统和修正规则集相结合前后的实验成果,实验成果表白记录措施和规则技术结合给标注方案的性能带来了明

33、显的提高。最后一章是结论和将来工作的展望。第2章 基于极大熵的词性标注2.1最大熵原理在信息论,用熵来描述事件的不拟定性。信息熵表征了信源整体的记录特性,是总体的平均不拟定性的量度。设随机变量具有Al, A2,,An共n个也许的状态,每个状态浮现的机率分别为pl,p2,pn,则言的不拟定限度,即信息熵为: 式(2.1)自然界的事物总是在约束条件下争取最大的自由权。总是朝着最混乱的方向发展,熵增意味着无序状态增强。熵最大的事物,最也许接近它的真实状态。在无外力作用下,事物因此,在己知约束条件记录建模时,一般根据已知信息,构造记录模型对随机事件进行模拟,来预测其未知行为。满足已知信息规定的模型也许

34、有多种,基于最大熵理论来选择模型就是将已知事件作为制约条件,求得使熵值最大的概率分布作为对的的概率分布。 2.2最大熵建模 若用T表达所有类的集合,X表达所有上下文的集合,而P表达运用最大熵模型估计出的随机事件的发生概率P,则P应满足如下两点规定l:P要使熵最大化: 式(2.2)P要服从样本数据中已知的记录证据,一般规定P尽量和数据集的先验分布相吻合。但是如果一味的追求使两者的值相似,会浮现训练过适应的问题,因此只规定它的重要条件信息在P上的盼望值和在先验概率尸上盼望值相等,这些重要的条件信息称为样本特性,一般用二值特性函数f来描述。特性函数用来表达已知样本的特性,特性fi对P的约束可以表达为

35、: 式(2.3)即:在概率P的状况下,特性的盼望值应当和从样本数据得到的特性的经验值相等。也即: 式(2.4)根据最大熵原则,就是要在所有满足特性约束条件的分布P中,选择一种能使熵最大的概率分布: 式(2.5)在标注任务中,约束表达为: 式(2.6)其中,k表达特性函数的个数。熵表达为: 式(2.7) 最大熵用于标注,即是规定约束条件下入一种参数入,运用拉格朗日求解法,得: 式(2.8)其中,为归一化因子, 式(2.9)式(2-8)中,P*具有Gibbs分布,和特性函数及其参数(特性值)有关。最大熵措施就是找出一种合适的特性集合,并计算得到每条特性的重要限度,即特性值。2.2.1样本特性描述最

36、大熵模型一般使用的训练特性是二值的,非零即一,这种特性选用措施对句子层面的应用来说也许是足够的,但是对于文本分类这种基于文档层面应用,很难捕获充足的信息。由于,文档分类中不能仅仅通过词的存在与否来判断它对某一篇文档语义的奉献,更精确的措施是使用词频。有关特性的选择工作最后都归结于特性分类集合的选择。如何通过训练和学习对特性分类过程进行必要的指引,是大部分特性函数在设计过程中需要解决的重要问题。本论文通过大量的实验比较,设计的标注系统采用自行选用的固定数量的特性类别集合。假设特性选择的分类属性值构成随机过程P的所有输出值Y。对于每一种Y E Y,其浮现均受与之有关的决策属性值x的影响。己知与Y有

37、关的所有决策属性值构成的集合为X,则模型的目的是:对给定的所有决策属性xEX,计算输出为yEY的条件概率,即对P(Ylx)进行估计,其中yEY且xEX。因此,特性选择的目的就是从众多决策属性中选择出对分类属性具有明显表征作用,从而对熵值起明显决定作用的特性。特性分为原子特性和复合特性:设xEX且x=wlw2. wn,设c是x的子串(长度=1),若c对yEY具有表征作用,则称(c, y)为模型的一种特性。若串c的长度为1,则称(c, y)为原子特性,否则,称(c, Y)为复合特性。2.2.2数据训练最大熵原理的基本思想是:给定训练数据即训练样本,选择一种与所有的训练数据一致的模型。例如在英语中,

38、对于一种具有词性歧义的词条,如果发现一种名词前为一种冠词的概率为50%,而在名词前为一种形容词的概率为30%,则最大熵模型应选择与这些观测一致的概率分布。而对于除此之外的状况,模型赋予的概率分布为均匀分布。对模型输入通过人工排歧或从己标注过的语料库中抽取出的大量训练样本进行训练,特性选择过程是在这些样本的基本上,对空间而言还涉及空间数据信息,即对在语料库中有歧义的对象的每次浮现,都已有拟定的取值Y及其相应的上下文环境x,可以表达为:(x1, y1), (x2, y2),,(xi, yi),,(xn, yn)a其中,x1表达决策属性,或为空间数据,或为非空间数据,yi是分类属性,是由专家提供的类

39、标号。在训练数据的基本上,可以用概率分布的极大似然对训练样本进行表达。可以用概率分布的极大似然对训练样本进行表达: 式(2-10)其中freq(x,y)是(x,Y)在样本中浮现的次数。2.3特性选择2.3.1问题的提出在样本的特性描述中提到过,特性选择是最大熵模型的重要工作,那么判断特性集合有效与否的原则是什么,如何进行特性的筛选是我们接下来要解决的问题。假设特性选择的分类属性值构成随机过程P的所有输出值Y。对于每个YEY,其浮现均受与之有关的决策属性值x的影响。己知与Y有关的所有决策属性值构成的集合为X,则模型的目的是:对给定的所有决策属性xEX,计算输出为yEY的条件概率,即对P(Ylx)

40、进行估计,其中yEY且xEXo哪些上下文信息作为预测信息即是特性选择的问题。因此,判断特性与否有效的原则就是看模型与否成功地从众多决策属性中选择出对分类属性具有明显表征作用,从而对熵值起明显决定作用的特性。特性选择过程是在抽样数据的基本上,因此抽样数据的精确限度至关重要。抽样数据来自于可靠的采样数据库,对特性空间而言还涉及空间数据信息,可表达为(x1, y1), (x2, y2),,(xi, yi),,(xn,”)。其中,xi表达决策属性,或为空间数据,或为非空间数据,yi是分类属性,是由专家提供的类标号。待标记的词的词性和该词所在的上下文环境(特性空间)有关,上下文环境信息用特性来描述。例:

41、“各国/np在/p经济/nn领域/nn加强/vv互利/nn合伙/nn,“加强”的词性标一记为vv,其上下文特性信息可以表达为:.目前词:加强.前一种词:领域前一种词的POS为nn.前二个词:经济前二个词的POS为nn.后一种词:合伙特性函数一般表达为二值函数,例: 式(2-11)进而引入一系列特性函数:根据词在训练语料中的浮现频数,将其分为一般词和生词(rare,浮现次数低于系统设定的闽值),分别考虑其上下文信息。例如,词w的上下文信息可以表达为: 式(2-12)2.3.2特性选择实验下面将较为具体地简介本论文中特性选择的措施。作者把特性集合的选用分为两步:1)运用定义好的特性模板直接从语料中

42、抽取候选选特性,然后再从候选特 征集中选用特性。2)设定目前词的上下文环境为前面若干个词、背面若干个词以及前面若干个词的词性、相依词性信息。论文通过增补实验对如下的样本特性进行筛选,得出可靠的标注特性集合。表2-1备选样本特性阐明outcome预期标记值curword输入(即最大熵模型的系统输入)prewordl前一种词pretagl第一种词的词性Preword2前第二个词pretag2前第二个词的词性preword前第三个词pretag3前第三个词的词性nextword后第一种词nextword2后第二个词retag12输入前第一种词的词性前与第二个词的词性的相依信息在理论分析的基本上,结合

43、实际语料建设的功能和特点,选用北大计算语言所提供的1998年1月份10天的人民日报语料,进行特性选择和模型训练实验。表2-2特性选择实验成果实验序号 待实验的特性集合 Accuracy(%)0 outcome curword prewordl,nextwordl 50.37891+ outcome curword prewordl,pretagl,nextwordl 71.27892 outcome curword prewordl,preword2pretagl,nextwordl 57.8314Zbl outcome curword prewordl,pretagl,pretag2,nex

44、twordl 65.72123+ outcome curword prewordl,preword2,pretagl,pretag2,nextwordl 66.15494- outcome curword prewordl,preword2,pretagl,pretag2,nextwordl,nextwordl 53.5911Zb2 outcome curword prewordl,preword12, nextwordl 69.98515+ outcome curword prewordl,preword2,pretagl,pretag2,pretag12,nextwordl,nextwor

45、d2 57.27496- outcome curword prewordl,preword2, preword3, 50.3689pretaglpretag2,pretag12,nextwordl,nextword2Zb3 outcome curword prewordl,preword2, preword12,Nextwordl 71.87037+ outcome curword prewordl,preword2, preword3,pretagl,pretag2, pretag3,nextwordl,nextword2 54.86258 outcome curword prewordl,

46、pretagl,pretag2, 50.0830pretag3,pretagl2, nextwordl9- outcome curword prewordl,preword2, preword3,pretagl,pretag2, pretag3, nextwordl,nextword2, 43.7544nextword3图表阐明:实验0-10共11次实验通过5倍交叉验证措施对材料进行标注,所得精确率。见表2-1,加号表达精确率比上一次实验增长。由实验0-10共11个实验的趋势图可知,系统标注的精确率并不随着特性个数的增长而上升,因此实验采用增补、替代不同特性的措施,检测出对精确率影响较大的特性

47、。其中:第一次增补实验根据序号为0, 1, 2次实验的精确率成果趋势判断,此时继续增长特性也许导致精确率继续下降,清除实验2增长的preword2特性,增长pretag2特性后,成果有所改善;同步把preword2作为排除特性。第二次增补实验根据序号为3, 4次实验的精确率成果趋势判断,清除nextword2以及第一次增补实验筛选掉的preword2排除特性。成果比实验4略抱负;增长排除特性nextword2。第三次增补实验根据序号为5, 6次实验的精确率成果趋势判断,清除preword3和两个排除特性preword2, nextword2。增长排除特性preword3。第四次增补实验根据序号

48、为8次实验的精确率成果趋势判断,清除pretag12会导致成果精确率下降,因此增长pretag12,同步删减掉排除特性preword2,nextword2, preword3进行实验,精确率有所回升。补充:序号为9, 10两次实验成果低于50%,没有参照意义。在四次增补实验中,实验Zb3的精确率较高,可以觉得实验Zb3选用的特性集合是比较合适的。因此在上下文信息窗口中选用如下七个特性作为最大墒的特性空间,记为后续实验的特性空间:Feature Space= outcome, curword, prewordl,pretagl,pretag2, pretag12, nextwordl第3章 汉语

49、兼类词和词性标注错误研究3.1汉语的词性兼类问题常用汉语兼类词数量不多,在现代汉语词典(增补本,外语教学与研究出版社)中兼类词的比例仅占3%(约为1500个)。但兼类词多为平常用词,在语料库中浮现率较高。在修辞学研究中,汉语中的词性兼类现象可以分为如下几类: 汉语的词常常具有两类或几类词的重要功能,大部份词自身就具有着不同的的语法功能,因而在不同的环境下使用,词性会随之产生变化,词义也会随之发生转换。常用的兼类词的状况有如下几种:1.兼动词、名词的,例如:病、锈、建议、决定、工作、代表等2.兼名词、形容词的,例如:左、科学、精神、经济、困难、矛盾等3.兼形容词、动词的,例如:破、忙、丰富、端正

50、、明白、进一步等汉语中虽然有一定数量的单义词,其中单纯的单义词比较少,合成的单义词比较多。交际时,单义词不受语言环境的限制,也不会产生歧义。但多义词在汉语中是更为普遍存在着的,词的多义现象正是汉语词汇丰富的一种体现。多义词对语言环境有很强的依赖性,在一定的语境中只能有一种义项合用。对于大规模语料库,系统在生成训练模型时也许也不会遇到兼类词的所有正例。例如,“短”分别有“形容词、动词、名词”三种词性:句1夏季/n 4/n长/a夜/n短/a。/w句2短/v斤/n缺/v两/n。/w句3取/v长/n补/v短/n 。信息解决用的词类与教学语法中的词类在本质上是一致的211,例如在分类原则上,都是根据语法

51、功能分出的类。并且在各类词的属性描述上也是有许多相似之处的,但信息解决用的词类与教学语法中的词类两者的研究目的是不同的,因而在某些具体问题上也体现出某些不同之处。一方面两者的研究目的不同。教学语法中的词类研究就是为了使全民族对我们的语言有一种更加进一步的结识,从而更好地使用我们的语言;而信息解决用的词类研究,就是为了能使计算机更好地解决我们的语言,从而使人机对话的深度一步一步的提高,适应信息化社会的需要。另一方面,两者在词类的分类体系上也是不同的,一般来说,为语言教学服务的语法体系的词类,大类分得不是太多,但是计算机解决用的语法体系的词类,大类分得就更细某些,例如在教学语法中,目前比较通用的词

52、类体系是把词提成:动词、名词、形容词、数词、量词、代词、副词、介词、连词、助词、叹词、拟声词,共12类。为信息解决服务的现代汉语语法信息词典中又在这些基本上分出了时间词、处所词、方位词、状态词、区别词、语调词、共18个基本类,还增长了前接成分、后接成分、语素、非语素字、成语、习用语、简称略语,共7个附加类制。此外,兼类词有异型兼类词和同型兼类词两种22。异型兼类词指词义不同的兼类词,如“领导(动、名)、锁(动、名)、死(动、形)”,也有人觉得这些实际是同音词。同型兼类词指词义相似的兼类词,如“共同(区别词、副词)、小时(量词、名词)、区别(动词、副词)”。异型兼类词必须解决成兼类词或异类同音词

53、,但同型兼类词从理论上说则不一定解决成兼类词,这与我们的划类方略有关。例如“研究、检查”一类词,兼有动词和名词的性质,我们可以采用同质方略解决成动词兼名词,也可以采用同型方略解决成第三类词,还可以采用优先同型方略解决成动词或名词。究竟采用哪一种方略,重要应考虑下面两方面因素:(一)词类的简朴性:类的总数尽量少;同型兼类词总数尽量少。(二)句法规则的简朴性:划归同一词类的不同词的语法功能应尽量单一。两方面因素事实上是矛盾的,照顾了词类的简朴性就会破坏句法的简朴性,照顾了句法的简朴性就会破坏词类的简朴性,因此应全盘考虑,使两方面的总代价降到最小。一般的语法学家觉得无论词的分布如何,词义没有发生主线

54、的变化,即同形同音词在不同的分布中同义,只有这种词才属兼类词,而对于具有不同分布时,词义又明显区别的词不属兼类词。而在信息解决用的词类研究中,我们觉得只要一种词在不同的分布中,具有不同的词性,才被当成为是兼类词,而不管其意义区别,实质上也就是指多类词。3.2兼类词标注中的错误分析和使用措施在汉语中,兼类词重要集中在动词,名词,形容词等常用词上。通过词典统多种兼类现象的比例如下:表3-1兼类现象的静态分布特性讨词典的记录成果)总词数54760兼类种类113兼类词条数3680兼类词占总词数的比例6.72%高频兼类占总兼类词比例其她兼类现象12.55%其她兼类现象37.6%动词一介词兼类4.04%动

55、词一名词兼类24.3%动词一副词兼类2.27%动词一形容词兼类10.4%名词一动词一形容词兼类12.27%名词一形容词兼类10.4%名词一动词一形容词兼类12.27%形容词一副词兼类4.55%名词一副词兼类2.02%名词,动词等词性浮现错误非常多,且多为反复错误。例如:词性为“u的“的”字被标注错了3004次,占系统训练和测试成果中“u标注错误的57(3004/5233)。如果盲目使用规则修正不仅也许导致错误,并且会大大增长系统占用的内存和延长运营时间。因此,对于这部分错误,作者采用单类词典进行修正不仅能获得较好的成果,且可以节省运算时间,实验成果证明采用这种措施是行之有效的。在语料库中已标注

56、词性的词语有两种标注成果:单标记词语和多标记词语即词性兼类。所谓单标记词语,即在语料库中只有一种词性标记的词语;多标记词语则为在语料库中标有两种或两种以上词性的词语。1)词表中是单标一记词语,但在语料中标了不同的词性,浮现了词性标注的不对的。词条:量化语料中的多标记词性:k, v错例:所/u获得/v的/u部分/n集体/n量化/k资产/n不/d容许/vu转让/v校正词性:v分析:“量化”这一词是非兼类词,在词表中只有v这一唯一词性,没有标注k的词性。2)词表中是兼类词,即有不同标记的词语,这部分词语也许存在词性标注错误,即:在相似的语境中浮现了不同的词性。例如:词条:高语料中的多标记词性涉及:v

57、、aq、a、n错例:比/p以往八高/a出/v许多/m。/wp校正词性:v分析:“高,有四种词性,例句中的词性显然应为动词(v)。对于第一种状况的不对的,如果词表中的词比较全的话,这种不对的比较容易解决,只要把标注错误的词条与词表比较后,改正即可。3.2.2训练模型进行兼类词标注中的错误输出分析语料内容:北京大学1998年1月份的人民日报标注语料(PKU9801)。语料性质:单语种书面语文本格式语料库。词性标记集:词性标注使用小标一记集。除了现代汉语语法信息词典中的连词c、助词u、语调词y、叹词e、拟声词。、成语i、习用语l、简称j、前接成分h、后接成分k、语素g、非语素字x、标点符号w)外,增

58、长了如下3类标记:专有名词的分类标记,即人名nr,地名ns,团队机关单位名称nt,其她专有名词nz;语素的子类标记,即名语素Ng,动语素vg,形容语素Ag,时间语素Tg,副语素Dg等;动词和形容词的名词用法标记vn,an和副词用法标记vd,ad。合计约40个左右。切分和标记措施:人工校对和机器加工循环进行。汉语规范:现代汉语语料库加工词语切分与词性标注规范。表3-1 训练语料的总体状况材料1材料2语料规模约96万82. 5万总词次961323825872所有词次=总词次一标点符号812551677100标点符号148772148772单一词性浮现一次的词934249801040浮现一次以上的词

59、2707424832兼类词种类49814661兼类词占所有词比例0.61%0.69%表3.2浮现一次以上的词2707424832兼类词种类49814661兼类词占所有词比例0 .61%0 .69%兼类词占反复浮现词的比例18.40%18.80%标注成果记录:表3.3标注成果记录测试材料1测试材料2测试材料3测试材料规模8247160124295575兼类词浮现类别114049815479待标注的兼类词数279154826620所有标注错误频次9891853142736兼类词标注错误类别1517623024兼类词标注错误频次22718692024兼类词范畴内标注错误率8.13%34.0%30.6

60、%兼类词占总体标注错误率23.9%20.0%23.42%由此可见,采用最大熵算法模型对材料进行训练和测试,如果可以改善兼类词的标注精确限度,将对提高系统的整体标注效果起较大的作用。为了运用特性概率函数进行规则选用,必须对常用兼类词词性与前一种词的相依词性做出记录。词“为”在取p和V两个词性时前一种词的词性分布状况:表3一4常用兼类词单词各个词性类及相应相依词性的频次记录Pos(为)=pPos(为)=Va=9a=37ad=2ad=1Ag=7an=1an=1b=5b=61C=1d=20d=18f=4f=4h=1i=1i=2m=9m=293n=92n=445Ng=3Ng=16nr=7nr=6ns=8ns=40

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!