汉语分词在中文软件中的广泛应用

上传人:ta****u 文档编号:139104827 上传时间:2022-08-22 格式:DOCX 页数:5 大小:13.28KB
收藏 版权申诉 举报 下载
汉语分词在中文软件中的广泛应用_第1页
第1页 / 共5页
汉语分词在中文软件中的广泛应用_第2页
第2页 / 共5页
汉语分词在中文软件中的广泛应用_第3页
第3页 / 共5页
资源描述:

《汉语分词在中文软件中的广泛应用》由会员分享,可在线阅读,更多相关《汉语分词在中文软件中的广泛应用(5页珍藏版)》请在装配图网上搜索。

1、汉语分词在中文软件中的广泛应用摘要:中文软件需要具有对中文文本的输入、显示、输出等基本功能,而且随着计算机技术的发展,对于计算机的文本处理能力提出了更高的要求,诸如智能拼音语句输入、手写和语音自动识别输入;文章的校对;简体和繁体中文的自动转换;信息检索和信息摘录;文本分类和自动文摘;语音合成;自然语言的理解和自动翻译;自然语言接口等。而所有这些中文处理功能都要建立在对汉语文本的分词处理这一基本功能之上。因而,汉语分词是中文信息处理的基础,在中文信息处理系统中具有广泛的应用前景。一、为什么需要汉语分词我们知道,汉语的中文信息处理就是要“用计算机对汉语的音、形、义进行处理。”1,我们还知道,“词是

2、最小的能够独立活动的有意义的语言成分。”然而,汉语文本中词与词之间却没有明确的分隔标记,而是连续的汉字串。显而易见,自动识别词边界,将汉字串切分为正确的词串的汉语分词问题无疑是实现中文信息处理的各项任务的首要问题。以拼音输入中的同音词自动辨识为例,据我们统计,汉语单字同音现象是非常严重的。以6763个汉字为例,没有同音字的汉字只有16个。其他汉字都有同音字。其中最多的有116个同音字。而汉语词语没有同音词。因此,大多数同音字可以依靠词来确定。例如:”yi”对应的同音字“以,一,易,已,意”,分别可以在“以为,一定,容易,已经,意义”中来确定。对于词语(包括单字词)的同音现象,则需要运用词语之间

3、的合理搭配以及词语在句子中的合法运用来确定。比如“一枝可爱的玫瑰花”,”Zhi”的同音字有:“只,之,直,支,枝”等。但是这里“枝”是和“花”的合理搭配。也就是说”一+枝+可爱的玫瑰花”是合理的搭配。由此不难看出,分词对于同音词自动辨识的作用。而同音词的自动辨识也是语音自动识别所要解决的重要问题。除了同音词的自动辨识,汉语的多音字自动辨识仍然需要分词的帮助。例如:“校、行、重、乐、率”等都是多音字。无论是拼音自动标注还是语音合成都需要识别出正确的拼音。而多音字的辨识可以利用词以及句子中前后词语境,即上下文来实现。如以上几个多音字都可以在以下几组词中得以定音:学校(xiao)/校(jiao)对、

4、行(hang)列/行(xing)进、重(zhong)量/重(chong)新、快乐(le)/音乐(yue)、率(shuai)领/效率(lv)。汉字的简体/繁体转换、信息检索和信息摘录、自然语言理解、文本分类、机器翻译、文本校对等中文信息处理系统同样都首先需要分词作为其最基本的模块、汉语分词所面临的关键问题及分词算法汉语分词是由计算机自动识别文本中的词边界的过程。从计算机处理过程上看,分词系统的输入是连续的字符串(C1C2C3?Cn),输出是汉语的词串(W1W2W3?Wm),这里,Wi可以是单字词也可以是多字词。那么,在这个过程中,我们所要解决的关键问题是什么,我们又有什么样的解决方案哪?关键问题

5、、通用词表和切分规范、汉语的语素和单字词,合成词和短语之间没有清晰的界限。语言学界虽然对于词在概念上有一个十分清晰的定义,即,“词是最小的能够独立活动的有意义的语言成分。”但从一些词典的编撰中,我们仍然可看出一些上述界限难以区分的问题。比如:“听见”“看见”在很多词典中都有收录,但是有类似结构的“闻见”却没有收录。在建立分词系统词表时,仍然对于收词的标准难以把握,例如:“鸡蛋”是词,那么“鸭蛋、鹌鹑蛋”是否也作为词收入词表?至今为止,分词系统仍然没有一个统一的具有权威性的分词词表作为分词依据。这不能不说是分词系统所面临的首要问题。除了分词词表,还有一个概念值得我们注意,即“分词单位”。从计算机

6、进行分词的过程来看,其输出的词串我们称之为“切分单位”或“分词单位”。信息处理用现代汉语分词规范中对于“分词单位”也有一个定义:“汉语信息处理使用的、具有确定的语义或语法功能的基本单位。包括本规范的规则限定的词和词组。”3由此可见,信息处理中分词单位的定义比传统意义上的词更宽泛些。这也就避开了理论上对于词的界定难以把握的困扰。分词系统可以面向解决实际问题的需求和真实语料中使用的频繁程度来规定“分词单位”。分词单位可以是同词表中词完全一致,也可以是包含未登录词识别以及一些词法分析的切分单位,例如,一些人名、地名、机构名、外国人译名,应予以识别和切分。一些动词和形容词重叠结构,如“高高大大”、“甜

7、甜蜜蜜”等;一些附加词,如后缀,“亲和性”、“热敏性”等;都可以作为分词单位予以识别和切分。因此,对于一个分词系统而言,制定一个一致性的分词单位切分规范无疑也是一个重要的问题。歧义切分字段、分词系统要处理的第二个关键问题是文本中歧义切分字段的判别。汉语中歧义切分字段最基本有以下两种类型:我们知道,简体/繁体之间的转换,在单字一级,会有一个简体汉字对应多个繁体汉字的情况,如:“发”对应繁体的“發”和“髮”。那么,简体/繁体转换应该将“发”转为“發”还是“髮”哪?这就引入了如何解决简/繁歧义的问题。此外,简体中文和繁体中文在一些技术术语的运用上也有不同。例如,简体中文计算机术语“物理地址”和“逻辑

8、地址”在繁体中文中写作“邏輯位址”和“物理位址”。简体/繁体转换系统也需要解决这种术语的不同用法问题。我们的简体/繁体转换系统运用分词模块切分词语,根据词语以及上下文来决定最可能的转换结果。MSWord2000中提供了对于文本自动标音的功能,我们知道,汉语存在一字多音的问题,如何决定多音字的正确拼音哪?这里,我们仍然利用分词系统作为基础模块根据上下文来判别其正确的拼音。这里,我们看到多音字:“重”被正确标注为“zhong4”和“chong2”四、结语汉语分词是中文信息处理系统的基础,有着极其广泛的实际应用。从基本的输入系统,如智能语句输入法、语音输入、手写输入;到文字处理,如文本校对、简体/繁

9、体转换、拼音标注;以及语音合成,文本检索,文本分类,自然语言接口,自动文摘等等,无处不渗透着分词系统的应用。但是对于分词中所涉及的一些关键问题,我们仍然没有很好的解决方案。因此,中文信息处理技术的进步和中文信息处理系统的广泛应用,有待于对分词中的关键问题进行进一步的深入研究和探索,如,制定和颁布国家通用的分词词表,研究歧义切分字段类型,增强歧义判别的能力,提高专有名词的识别率,研究汉语的构词规则和词法规则等等。如:从系统设计方面,应考虑开发通用的多功能的汉语分词系统,支持多种不同应用的多词典结构、自适应不同应用的切分结果、带结构化和属_的切分结果等。从分词的在中文信息处理系统中的应用方面,可以说,我们已经跨出了一大步,但是我们仍在致力于拓展其新的应用,如:自动文摘、汉语文本索引和检索、汉语语音合成、汉语自然语言接口等。我们认为,汉语分词系统作为中文信息处理系统的基石,有着极其广泛的应用前景。通过对分词技术的深入研究,开发出高质量,多功能的分词系统,必将促进中文信息处理系统的广泛应用,换言之,也就提高了中文软件对于中文的处理能力,这也将使得计算机用户的日常工作的效率得以提高。内容仅供参考

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!