机器翻译的一些难点探讨

上传人:daj****de 文档编号:180000830 上传时间:2023-01-04 格式:DOCX 页数:6 大小:15.36KB
收藏 版权申诉 举报 下载
机器翻译的一些难点探讨_第1页
第1页 / 共6页
机器翻译的一些难点探讨_第2页
第2页 / 共6页
机器翻译的一些难点探讨_第3页
第3页 / 共6页
资源描述:

《机器翻译的一些难点探讨》由会员分享,可在线阅读,更多相关《机器翻译的一些难点探讨(6页珍藏版)》请在装配图网上搜索。

1、机器翻译的一些难点探讨杨宪泽【摘 要】机器翻译技术的难点很多.本文的主要工作涉及三个难点:第一是自动分词 的歧义问题及初步处理;第二是成语和语义问题的初步处理;第三是近似翻译方法及 其相似度计算.期刊名称】西南民族大学学报(自然科学版)年(卷),期】2011(037)003【总页数】5页(P447-451)关键词】 机器翻译;难点;自动分词;歧义;成语;语义;相似度作 者】 杨宪泽作者单位】 西南民族大学计算机科学与技术学院,四川成都610041正文语种】 中 文中图分类】 H085;TP391.2机器翻译是用电脑代替人做翻译工作,这里特指笔译. 机器翻译的一种方法是把一 种自然语言记述的表达

2、式(单语、短语、句子、单词标记符)变换为用另种自然语 言记述的表达式, 最基本的作法是把原文的单词与句型结构映射到译文相对应的单 词与句型结构.机器翻译是21世纪要解决的科技难题之一,主要困难是自然语言在 各个层次上的歧义性1-4和其它问题 , 而这些问题很难从根本上突破. 人做翻译工作的必要条件是懂得两种语言,一般情况下, 有一种语言是其母语, 另一 种是外语.因而工作的难点除了母语语法语义等外, 更多的还在外语.人能记住的单 词与语法规则总是有限的,翻译时免不了要查词典或参考书. 还应当注意到, 人在翻 译时会自觉或不自觉地运用自已头脑中所有的关于客观世界的各种各样的知识,而 人的知识又是

3、可以不断积累与更新的.高水平的翻译人是可以达到的, 因此, 机器翻 译能做到什么程度以及做不到什么程度的关键难点应该正确认识5-8. 机器翻译至少面前还不可能达到人工翻译的水平,因此, 它的用途主要有:(1) 进行粗译, 经过人工修改达到目标;(2) 有低水平的翻译总比没有翻译好, 可在译文中发现所需要的东西. 机器翻译重要的实践意义和理论价值是:(1) 实践方面的意义 国际间的合作与交流,语言的差异是一个非常严重的障碍. 各行 各业的人们面对大量他们不熟悉的语言的文挡资料, 如果单纯依靠人工翻译, 这些 日益增加的待翻译材料将是一种非常沉重的负担, 而机器翻译可大幅度减轻这种负 担.(2)

4、学术研究方面的意义 机器翻译对于探讨人工智能技术有着重要的意义. 本文的工作主要探讨机器翻译的一些难点及其处理, 包括自动分词的歧义问题、成 语和语义问题、近似翻译方法及其相似度计算.汉语这样一类语言,一个句子中的词与词是连在一起的, 必须自动分词. 自动分词过 程中,歧义会出现, 这仅仅是一种歧义. 而歧义分词主要可以分为四个方面9-10:(1) 词组的多义产生的歧义.(2) 由计算机程序在自动分词阶段产生的歧义:这种情况虽然人可以正确分词, 但 计算机毕竟不是人,出现歧义难免. 计算机程序分词产生的歧义一般有两种:组合 型歧义.即,对于字串AB,可以分成AB,也可以分成A / B;交集型歧

5、义.即,对于字 串ABC,可以分成AB / C,也可以分成A / BC.(3) 由词典大小产生的歧义:自然语言的词组无穷,新的词组还在不断创造,机器词 典不可能收集全部的词组. 如果要翻译的语句中出现了没有收集到的词, 歧义就有 可能出现.(4) 由自然语言的二义性产生的歧义:例如:“在日本保留和尚使用的古典乐器很 多”. 这句若没有上下文辅助, 连人也难理解其真实含义,机器翻译时计算机程序肯 定在自动分词时就会出现两种情况 .在 / 日本 /保留 /和 /尚使用 /的 / 古典 /乐器/ 很多;在 /日本 /保留 /和尚 / 使用 /的 / 古典 /乐器/很多. 四种歧义的解决第二种最难,目

6、前还没有好的方法, 好在统计表明这类歧义只占歧 义总数的 5%左右; 第一、三、四种怎样解决是研究的热点. 下面给出一种初步研究 的方法.假设对汉字串C1C2.Cn进行分词处理,算法流程图描述如下:2. 1成语的初步处理在机器翻译中, “成语”这个术语有自己特定的意义, 它包括固定词组、习惯用语 常用词组、专有名词、复合词等等, 甚至还包括翻译中一时难于解决的词与词之间 的某种搭配. 为成语收词应该遵循以下原则:(1) 成语必须是两个或两个以上词的组合;(2) 成语词的意义不是构成它的名词意义的简单总和;(3) 成语在结构上有固定性,功能上有整体性.即,在句子层上成语和其它实词一样, 都是构成

7、句子的不可分的最小功能单位.2. 2语义问题的初步处理 请看下面两个例子.I bought a table with three dollarsI bought a table with three legs 这两个句子的结构完全一样,但是机器翻译正确却有困难.因为从语义的角度看,第 句中dollars是货币,可以作为bought的工具格.dollars与table并没有直接关 系,因此介词短语with three dollars只能是状语;而在第二句中,legs是table的 组成部分,不能用legs购物,因此with three Legs只能是修饰table的.如果在英 语词典中,除了指明

8、dollars, legs属于名词这个语法范畴外,还注记其语义信息,即 dollars是“货币”,legs是“物体的组成部分”,分析程序就可以参照这些语义信 息在两种可能的句法结构中选择一个合理的保留下来. 这项工作可以认为是语义分 析消除歧义, 作法可以是以下三点:(1) 保留歧义进行翻译例如, 上述两个句子可以含糊的翻译成:我买了一张桌子, 三美圆; 我买了一张桌子, 三条腿.这样处理在某些场合下并非一定不能接受. 这样处理的特点是保留了原文的歧义.(2) 限定专业范围如果机器翻译只局限在某个专业范围, 一词多义的问题, 就会显著减少.(3) 优先选择使用频率高的词.机器翻译面临另一个难题

9、是长句, 长句的成分非常复杂, 造成的实施步骤多, 难免不 出现预想不到的问题.人们创造的近似机器翻译方法在回避长句这一类问题11-13. 近似翻译的实质是从语料库中找出与输入语句相似度最大的源语句,因此,语句间 的相似度的计算是个关键. 这里提出一种计算相似度的方法.3. 1 相似度问题(1) 词形相似度即两个句子中所含相同词的个数或同义词个数设S、S是两个句子,则S、S的 词形相似度为:其中,中所含相同词或同义词的个数,若某词在两句中出现次数不等时,以较少次数 为准,指 S 1中词的个数.(2) 词序相似度反映两句中相同词或同义词在位置顺序上的相似程度, 以两个句子中所含相同词或 同义词的

10、相邻顺序逆向的个数来衡量. 设为中仅出现一次的相同词或同义词的集合, 中的词在S 1的位置序号构成的向量,Psec e nd (S1,S2)表示中的分量按对应词在 中的顺序排列生成的向量,各相邻分量的逆序数,则的词序相似度为: 机器翻译的研究和软件制作确实是非常困难的课题.回首往事,许多解决问题的方 法仍处于起始阶段, 近50年来没有太大进展. 尽管某些论文称一些机器翻译软件正 确率达到90%的水平甚至更好,但它们通常只针对特定环境而言14-16.本文探讨 了机器翻译三个困难问题, 其实困难问题太多太多, 论文篇幅所限, 我们很难把它们 都列出来.文中给出的解决方法也是一些初步的探讨. 这些方

11、法还需要发展、深入 细致的再研究,才可能得到一个好的结果.由于有越来越充足的资源,研究的机器翻 译软件实用性比以前大为改善.尽管如此,机器翻译的研究在今后相当长的时间里, 仍是人工智能领域难题之一.同时,如何把机器翻译的研究与人工智能其他技术结 合起来, 达到机器翻译软件性能的提高, 还需要进一步探讨.【相关文献】1 FRANZ JOSEF OCH, HERMANN NEY. The alignment template approach to statistical machine translationJ. Computationa1 Linguistics, 2004, 30(40) :

12、412-449.2 GEOFF W, MICHAEL J P, DANIEL B. Machine learning for user modelingJ. UserModeling and User-Adapted Interaction, 2001,11: 19-29.3 HAMMOND T. A domain description language for sketch recognitionM. MIT Student Oxygen Workshop, 2002.4 杨宪泽人工智能与机器翻译M.成都:西南交通大学出版社,2006.杨宪泽一种改进的机器翻译方法及相关处理几智能系统学报,

13、2008,3(12):133-138.杨宪泽句型转换的消歧与译文生成处理研究几计算机工程与科学,2007,29(4): 88-90.7 杨宪泽.一种句型转换和近似机器翻译方法及算法J.计算机工程与科学,2005, 27(11) : 66-68.8 杨宪泽.机器翻译的词处理研究J.计算机科学与工程,2009, 31:156-158.9 杨宪泽句型转换的机器翻译理论模型与一些处理方法J.科技通报,2007, 23(2): 152-156.10 杨宪泽机器翻译中设计的两个算法J科技通报,2005, 21(2):189-197.11 杨宪泽混合式机器翻译的关键技术研究几四川师范大学学报,2008, 3

14、1(11) : 2005-2008.12 杨宪泽.混合式机译中句型转换模块的设计与实现J.计算机应用与软件,2008, 25(4) : 132- 134.13 杨宪泽一种混合式机器翻译方法及其算法J.计算机应用与软件,2005, 22(9) : 142-145.14 杨宪泽.机器翻译的理论模型与语法分析研究J.西南民族大学学报:自然科学版,2006,32(1): 186-190.15 杨宪泽机器翻译的一些消歧方法研究J.西南民族大学学报:自然科学版,2008, 34(4) : 782- 786.16 杨宪泽.汉英机器翻译的单词处理研究J.西南民族大学学报:自然科学版,2009, 35(3) : 595-599.

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!