试论中文信息处理与现代汉语语法

上传人:卢** 文档编号:114235904 上传时间:2022-06-28 格式:DOC 页数:5 大小:18KB
收藏 版权申诉 举报 下载
试论中文信息处理与现代汉语语法_第1页
第1页 / 共5页
试论中文信息处理与现代汉语语法_第2页
第2页 / 共5页
试论中文信息处理与现代汉语语法_第3页
第3页 / 共5页
资源描述:

《试论中文信息处理与现代汉语语法》由会员分享,可在线阅读,更多相关《试论中文信息处理与现代汉语语法(5页珍藏版)》请在装配图网上搜索。

1、试论中文信息处理与现代汉语语法论文关键词:中文信息处理现代汉语语法句处理论文摘要:用计算机来处理汉语信息包括“字处理、“词处理和“句处理三个阶段。“句处理是实现自然语言的处理与理解这一关键性的技术难关。其中遇到的问题比拟多:词性的判断;短语、句子的构造分析;歧义现象分析等等,最根本的方法是语言学家尽可能地把语言中的这些现象通过归纳、分析、总结出规律,再用形式化的方式描绘出来,以便利于计算机处理。用计算机来处理汉语信息,就是汉语信息处理,又称中文信息处理。中文信息处理包括“字处理、“词处理和“句处理。“字处理、“词处理分别与汉字和词汇有关,在此主要谈谈“句处理。句处理的主要内容是,怎样使计算机理

2、解自然语言(如现代汉语)的句子的意思,又怎样使计算机生成符合自然语言规那么的句子。“句处理所需要的语言知识,将是一种涉及到语音、语义、语法、语用等诸方面的综合性知识。目前。大家都深感现有的关于汉语的知识远远不能满足中文句处理的需要。单就句法方面的情况说。在中文信息处理过程中将会不断遇到我们想象不到的问题,许多问题在人看来还是比拟容易解决的,但计算机就解决不了。也有一些问题,本身在学术界就有不同的观点,那么,就给中文信息处理增加了更大的困难。用计算机来处理中文信息,遇到了很多困难,从现代汉语语法的角度来看,主要有以下一些问题:一、词性的判断由于汉语缺乏形态。汉语的词性判断主要是根据词的语法功能,

3、不同的词,词性意义可能不同,同一个词出如今不同的地方,词性意义也可能不同,汉语中,大多数词有固定的词性,但有些词的用法比拟特殊。例如:1.他花了十块钱买了一盆花。2.你用那个锁把门锁上。3.他比雷锋还雷锋。这三个句子中分别有两个“花、“锁、“雷锋。但它们只是音同、形同,词性和意义都不同。句子1中的第一个“花是动词,“花费的意思,第二个“花是名词,“植物的意思。句子2中的第一个“锁是名词,即“锁子的意思,第二个“锁是动词,是“锁妆的意思。句子3中第一个“雷锋是名词,表示人名,第二个“雷锋是形容词,表示“雷锋的精神、品质等。具有一定语言知识的人大体上都能分清它们的区别。从传统语言教学的角度来讲,句

4、子1中的两个“花是词形、读音一样,但词性和意思都不一样,且两个“花的意思之间没有联络,所以属于同音词。句子2中的两个“锁,也是词形、读音一样,词性和意思都不一样,但两个“锁意思间有联络,所以属于兼类词。句子3中的两个“雷锋词形、读音一样,词性和意思都不一样,意思也有联络,但第二个“雷锋属于词类活用。从教学的角度看,这种分类比拟细致,便于人们的理解和掌握,但是,从中文信息处理的角度来看,这种分法太细,不便于计算机掌握。目前,在中文信息处理中,是这样来定义兼类词的:亢世勇认为“兼类词有广义兼类词和狭义兼类词。广义兼类词就是中文信息处理中所说的现代汉语的同形词,对于计算机而言,只要词形一样,不管读音

5、是否一样、意义是否相通,是同形异音词、同形同音词,还是一词多义、一词多种用法,都是一样的,都要从多个当中选一个。狭义的兼类词就是指一般的现代汉语著作定义的,同形同音、意义上有一定的联络,且具有两类或两类以上词的语法功能的词。陆俭明认为,兼类词是“指同字形、同音而意义不同或词性不同的词。假如按这种定义理解,以上三个句子中的两个“花、“锁、“雷锋都可以称之为兼类词。因为,中文信息处理的目的是让计算机能根据详细环境判断出词的词性,从而准确理解其中的含义就可以了。尽管如此,但是,汉语词类是多功能的,一类词不需要发生词形变化就可以充当不同的句子成分,不同类的词可以充当一样的句子成分,这样就给兼类词区分带

6、来了更多的费事。因此,兼类词的选择是计算机词性自动标注的一个“瓶颈。尽管信息处理专家运用了规那么排歧、统计概率排歧或者两者结合起来等多种方法进展排歧,但到目前为止,还没有一种方法、一种系统可以彻底解决这个问题。二、短语、句子的构造分析由于汉语缺乏形态。所以。语序和虚词成了汉语中表示语法的主要手段。有些短语、句子的构造不好理解,需要形式和意义结合起来分析。例如:a组:a。陕西+甘肃+宁夏(“陕西+甘肃+宁夏三者为结合关系)b.中国+(北京+陕西)(“中国与“北京陕西是偏正关系.“北京与“陕西是结合关系).中国(陕西(西安)(“中国与“陕西西安是偏正关系,“陕西与“西安也是偏正关系)这一组中的ab

7、e三个短语对人来说,都很容易分清楚,但计算机目前还很难区分,要让计算机分辨清楚,就得把三个处所名词组合在一起构成a类、b类、e类不同关系的条件与规那么研究清楚,并将这些条件与规那么加以形式化输入到计算机内。b组:开场讨论(述宾关系)分析研究(结合关系)研究完毕(主谓关系)取下来(述补关系)看完再说(连谓关系)叫他回来(兼语关系)消费管理(定中关系)挖苦说(状中关系)介绍写(不构成合法的句法关系)这组是现代汉语里“动词性词语+动词性词语构成的种种不同的构造关系,对人来说,通过讲解大致可以分辨,可是让计算机要分清楚,就非常难,因为我们至今还没有总结出“动词性词语+动词性词语构成各种不同句法关系的详

8、细规那么。换句话说,“动词性词语+动词性词语在什么条件下一定构成合法的什么句法关系,能构成什么样不同的句法关系,我们至今还说不清楚。组:天气好好天气(主谓偏正)很好好得很(偏正述补)来人了。人来了。(述宾主谓)一张票三元钱。三元钱一张票。(主谓主谓)这一组都是由于语序的不同而形成的构造和意义都不同的短语和句子。这些构造对人而言,稍加学习就可以理解,但这些给计算机理解意思增加了难度。需要人们把这些语序的变化形成的不同的构造概括出规律来,再用形式化的方式描绘出来。输入到计算机里。三、歧义现象现代汉语短语构造的歧义是进展汉语句法分析的一大障碍。“句处理要解决的核心问题是排歧问题,计算机面对的歧义,不

9、只是我们人所能感觉到的诸如下面这样一些句子的歧义现象:(1)他正在输血。(他正给病人输血。他病了,正输血。)(2)看望的是病人。(你看望的那个人是病人。/看望你的那个人是病人。)(3)我们急需进口产品。(我们急需进口的产品。/我们急需从国外进口产品。)某些在人看来不存在歧义的句子计算时机认为有歧义.例如:(4)a他被警察叫去罚了一百块钱。b他被警察叫去写了一份检查。例(4)a句和b句,在人的眼里构造是不一样的。a句“被警察这个介词构造一直管到底。全句意思是“他被警察叫去,他被警察罚了一百块钱:而b句“被警察这个介词构造只管到“叫去,管不着“写了一份检查。可是,计算机分辨不清楚。要让计算机分辨清

10、楚,我们就得将“pp+vpi+vp2(pp代表介词构造,vp1和vp2分别代表紧挨着的不同的动词性词语)这种构造中的pp对后面动词性词语管辖的范围及其条件与规那么进展充分、准确的描写,并加以形式化,“交给计算机。而这一类现象与规那么我们过去根本就没有考虑过,更不用说研究了。其实以上所举的例子都存在歧义问题,因此,也可以这么说,“句处理要解决的核心问题是排歧问题。中文信息“句处理的研究工作,上个世纪80年代就开场了,最早进展“句处理研究工作就是基于规那么展开的,但上个世纪90年代初,基于规那么的“句处理研究工作遇到了重重困难与难关,主要是语言学家所提供的语言规那么远远不能满足信息处理的需要。目前

11、,为理解决好中文信息处理中的“句处理难题,出现了一个竞相研究、竞相开展的场面。对于句处理,提出的各种策略和途径,归纳起来。主要有基于规那么和基于统计这两种策略。基于规那么的研究者,一般求诸专家的理性知识,由人来对语言知识进展抽象:基于统计者,一般求助于计算机对大规模语料库真实文本的统计分析,由计算机来抽象出语言知识。各种策略和途径,目前,我们还很难说哪一种是唯一正确的。各种策略和途径,外表看不同,其实,最终都需要依赖可靠的汉语知识来驱动计算机正确处理自然语言(汉语)。因此,“无论是比拟传统的基于规那么的处理策略,还是90年代以来方兴未艾的基于统计的方法,在对语言知识的需求这一点上实际上都是共同

12、的。所不同者,走规那么道路的研究者一般求诸专家的理性知识,由人来对语言知识进展抽象(比方以带有合一条件的规那么形式给出)。而走统计道路的研究者一般求助于计算机对大规模的语料库的统计分析,由计算机来抽象出语言知识(比方以一定的数据构造记录的统计结果等)。两种道路孰优孰劣,不能笼统判断,只能跟详细的应用目的结合起来,由理论结果来评价。目前,越来越多的学者提倡把两种方法结合起来使用。因此,相信在不久的将来,我们会攻克难关,实现计算机对自然语言的处理与理解的目的,使中文信息处理技术处于世界领先地位。参考文献:1.兰宾汉、邢向东:现代汉语(下册).北京:中华书局,2022,48。2.亢世勇:面向信息处理的现代汉语语法研究.上海:上海辞书出版社,2022,177。3.陆俭明:现代汉语语法研究教程(第三版),.北京:北京大学出版社。2022年,51。4.詹卫东:面向中文信息处理的现代汉语短语构造规那么研究.北京:清华大学出版社,2000,2。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!