有关“机器翻译”的文献综述

上传人:d**** 文档编号:171328695 上传时间:2022-11-25 格式:DOCX 页数:11 大小:23.49KB
收藏 版权申诉 举报 下载
有关“机器翻译”的文献综述_第1页
第1页 / 共11页
有关“机器翻译”的文献综述_第2页
第2页 / 共11页
有关“机器翻译”的文献综述_第3页
第3页 / 共11页
资源描述:

《有关“机器翻译”的文献综述》由会员分享,可在线阅读,更多相关《有关“机器翻译”的文献综述(11页珍藏版)》请在装配图网上搜索。

1、机器翻译机器翻译(Machine Translation),又称为自动翻译,是利用计算机把一种自然源语言 转变为另一种自然目标语言的过程,它是自然语言处理(Natural Language Processing) 的一个分支,与计算语言学(Computational Linguistics)、自然语言理解(Natural Language Understanding)之间存在着密不可分的关系。步入21世纪以来,随着国际互联网(Internet)的迅猛发展和世界经济一体化的加速, 网络信息急剧膨胀,国际交流日益频繁,如何克服语言障碍已经成为国际社会共同面对的问 题。由于人工翻译的方式远远不能满足

2、需求,利用机器翻译技术协助人们快速获取信息,已 经成为必然的趋势。一、机器翻译的基础机器翻译的研究是建立在语言学、数学和计算机科学这3门学科的基础之上的。语言学 家提供适合于计算机进行加工的词典和语法规则,数学家把语言学家提供的材料形式化和代 码化,计算机科学家给机器翻译提供软件手段和硬件设备,并进行程序设计。缺少上述任何 一方面,机器翻译就不能实现,机器翻译效果的好坏,也完全取决于这3个方面的共同努力。二、机器翻译简史机器翻译的研究历史可以追溯到20世纪四五十年代。1946年,第一台现代电子计算机ENIAC诞生,随后不久,信息论的先驱、美国科学家W. Weaver和英国工程师A. D. Bo

3、o th 在讨论电子计算机的应用范围时,提出了利用计算机进行语言自动翻译的想法。1949年, W. Weaver发表翻译备忘录,正式提出机器翻译的思想。走过六十年的风风雨雨,机器 翻译经历了一条曲折而漫长的发展道路,学术界一般将其划分为如下四个阶段:1开创期(1946-1964)1954年,美国乔治敦大学(George town Universi ty)在IBM公司协同下,用IBM-701 计算机首次完成了英俄机器翻译试验,向公众和科学界展示了机器翻译的可行性,从而拉开 了机器翻译研究的序幕。中国开始这项研究也并不晚,早在1956年,国家就把这项研究列入了全国科学工作发 展规划,课题名称是“机

4、器翻译、自然语言翻译规则的建设和自然语言的数学理论”。1957 年,中国科学院语言研究所与计算技术研究所合作开展俄汉机器翻译试验,翻译了9种不同 类型的较为复杂的句子。从20世纪50年代开始到20世纪60年代前半期,机器翻译研究呈不断上升的趋势。 美国和前苏联两个超级大国出于军事、政治、经济目的,均对机器翻译项目提供了大量的资 金支持,而欧洲国家由于地缘政治和经济的需要也对机器翻译研究给予了相当大的重视,机 器翻译一时出现热潮。这个时期机器翻译虽然刚刚处于开创阶段,但已经进入了乐观的繁荣 期。2受挫期(1964-1975)1964年,为了对机器翻译的研究进展作出评价,美国科学院成立了语言自动处

5、理咨询委 员会(Automatic Language Processing Advisory Committee,简称ALPAC委员会),开始了 为期两年的综合调查分析和测试。1966年11月,该委员会公布了一个题为语言与机器的 报告(简称ALPAC报告),该报告全面否定了机器翻译的可行性,并建议停止对机器翻译项目 的资金支持。这一报告的发表给了正在蓬勃发展的机器翻译当头一棒,机器翻译研究陷入了 近乎停滞的僵局。无独有偶,在此期间,中国爆发了“十年文革”,基本上这些研究也停滞 了。机器翻译步入萧条期。3恢复期(1975-1989)进入70年代后,随着科学技术的发展和各国科技情报交流的日趋频繁,

6、国与国之间的 语言障碍显得更为严重,传统的人工作业方式已经远远不能满足需求,迫切地需要计算机来 从事翻译工作。同时,计算机科学、语言学研究的发展,特别是计算机硬件技术的大幅度提 高以及人工智能在自然语言处理上的应用,从技术层面推动了机器翻译研究的复苏,机器翻 译项目又开始发展起来,各种实用的以及实验的系统被先后推出,例如 Weinder 系统、 EURPOTRA多国语翻译系统、TAUM-METEO系统等。而我国在“十年浩劫”结束后也重新振作起来,机器翻译研究被再次提上日程。“748” 工程给予了机器翻译研究足够的重视,80年代中期以后,我国的机器翻译研究发展进一步 加快,首先研制成功了 KY-

7、1和MT/EC863两个英汉机译系统,表明我国在机器翻译技术方面 取得了长足的进步。4.新时期:(1990现在)随着Internet的普遍应用,世界经济一体化进程的加速以及国际社会交流的日渐频繁, 传统的人工作业的方式已经远远不能满足迅猛增长的翻译需求,人们对于机器翻译的需求空 前增长,机器翻译迎来了一个新的发展机遇。国际性的关于机器翻译研究的会议频繁召开, 中国也取得了前所未有的成就,相继推出了一系列机器翻译软件,例如“译星”、“雅信”、 “通译”、“华建”等。在市场需求的推动下,商用机器翻译系统迈入了实用化阶段,走进了 市场,来到了用户面前。三、机器翻译的过程整个机器翻译的过程可以分为原文

8、分析、原文译文转换和译文生成3 个阶段。在具体 的机器翻译系统中,根据不同方案的目的和要求,可以将原文译文转换阶段与原文分析阶段 结合在一起,而把译文生成阶段独立起来,建立相关分析独立生成系统。在这样的系统中, 原语分析时要考虑译语的特点,而在译语生成时则不考虑原语的特点。在搞多种语言对一种 语言的翻译时,宜于采用这样的相关分析独立生成系统。也可以把原文分析阶段独立起来, 把原文译文转换阶段同译文生成阶段结合起来,建立独立分析相关生成系统。在这样的系统 中,原语分析时不考虑译语的特点,而在译语生成时要考虑原语的特点,在搞一种语言对多 种语言的翻译时,宜于采用这样的独立分析相关生成系统。还可以把

9、原文分析、原文译文转 换与译文生成分别独立开来,建立独立分析独立生成系统。在这样的系统中,分析原语时不 考虑译语的特点,生成译语时也不考虑原语的特点,原语译语的差异通过原文译文转换来解 决。在搞多种语言对多种语言的翻译时,宜于采用这样的独立分析独立生成系统。四、主要的机器翻译方法评述机器翻译的过程一般可简化为三个阶段:原文分析、原文译文转化和译文生成。表象 上,机器翻译的核心问题是翻译的准确性;实质上,体现在技术层面则是机器翻译系统采用 的方法论问题。在方法论层面,机器翻译系统可分为基于规则(Rule-Based)和基于语料库 (Corpus-Based)两大类。前者是由词典和语法规则库构成翻

10、译知识库,后者则是以语料的 应用为核心,由经过划分并具有标注的语料库构成知识库。其中,基于语料库的方法又可以 分为基于统计(Statistics-based)的方法和基于实例(Example-based)的方法。换个角度说,基于规则的方法属于理性主义范畴,基于语料库的方法则属于经验范畴。 回顾近六十年的机器翻译发展史,翻译方法论的演变实际上就是“经验”与“理性”的相互 “交流”。1主导地位的基于规则的方法(1)基于规则方法的发展历程 早期的机器翻译系统基本上都采用基于规则的方法。1954 年,世界上第一台机器翻译 系统IBM701诞生,它只有250条俄语词汇、6条基本语法规则以及49个俄语翻译

11、例句,通 过直译法完成了世界上第一次机器翻译实验。所谓直译法,即把源语言中的单词或句子直接替换成相应目标语的单词或句子,必要时对词序进行适当的调整。直译法一般是针对特殊的语言对来设计,系统移植比较困难,缺乏通用性。典型的直译法翻译系统是Systran系统,它是美国在乔治敦大学机器翻译系统的基础上 进一步开发的,设计之初只能完成从俄文到英文的翻译,后来改进为可实现多语种之间的互 译。这个系统对机器翻译的后续发展有着很大的影响,目前仍有不少翻译系统采用直译法在直译法逐步改进的同时,基于转换的方法也相伴而生。所谓基于转换,就是对句子结 构进行层次分析,在词对词翻译的基础上,根据不同语言的不同规则生成

12、相应的译文。这种 方法需要三部字典:源语字典、源语目标语双语字典和目标语字典。最直观的例子就是中英文互译,中国人的名字是先姓后名,美国人的名字是先名后姓 中文句子是主谓宾加名词短语,英文句子是主谓宾加从句。诸如此类的不同规则,在转换法 的翻译过程中,都需要通过三部字典中的特定描述才能顺利转化。伴随着直译法和转换法的发展,另外一种基于规则的方法中间语法应运而生。它先把 源语言分析转换成对所有语言都适合的一种句法语义表示,再由此转换为目标语言。也就 是说,基于该方法的翻译过程包括两个阶段:从源语言到中间语言,再从中间语言到目标语 言。这种方法有一个典型的好处:节省开发费用。当需要多种语言翻译的时候

13、,可以直接 通过中间语言翻译到目标语言,而不需要每一种语言都设立一套规则程序。假如有 6 种语言 需要彼此相互翻译,采用基于转换的方法需要30 个语言转换模块(每对语言都需要一个模 块),而采用中间语法的系统只需要12 个模块。虽然提出了三种方法,但显然当时的研究者还没有意识到机器翻译的难度,这些简单 的方法对于稍复杂的句子就已经无能为力了。随着研究的深入,人们逐渐认识到:要完成机 器翻译,计算机必须能够在一定程度上理解源语言的句子。与此同时,人工智能这门学科在 20世纪70年代有了很大的发展,各种知识表示和知识推理的理论和算法纷纷被研究者提出。 人们对自然语言的理解和机器翻译的认识有了质的飞

14、跃。这一阶段研究人员对基于规则的方法进行了创新性的改进,其主要特点是对语言进行 了深层次的分析、转换和生成,也就是说,翻译不再是只在句子的表层(词序列)上进行 而是在句子的某种更深层结构(例如句法结构、语义结构或知识表示)的层面上进行。要实 现这一点,系统就需要大量的语言知识和翻译知识,为此,机器翻译程序采用了数据与程序 相分离的存储形式,语言知识和翻译知识以数据形式存在,而翻译程序利用这些数据进行翻 译。这种数据最常见的表现形式就是规则和词典。基于规则的机器翻译系统在1980 年代达到一个高峰期,市场上涌现出很多基于规则的 机器翻译系统,其中一些已经步入实用化阶段。国际上也出现了一些大规模的

15、研究计划,例 如欧盟的Eurotran项目和日本的亚洲五国语言机器翻译项目。即使到目前,大多数实用型 机器翻译系统也都是以基于规则为主。整体而言,基于规则方法的翻译系统覆盖面宽,但译 文质量的一致性有待提高。(2)基于规则方法的现状纵观机器翻译发展的历程,可以看出,机器翻译的主流方法一直是基于规则的方法。国 际上有影响的机器翻译系统基本上都需要规则的贡献,即使在多种技术并存的系统中也要包 含规则,基于规则的机器翻译技术思想是被普遍接受的、成熟的,也是到目前为止应用最广 的方法。基于规则的机器翻译系统就是对语言语句的词法、语义进行分析、判断和取舍,然 后重新排列组合,最后生成等价的目标语言。基于

16、规则的机器翻译方法导致了程序工作者和语言工作者的一种合作范式:程序工作者 和语言工作者先共同制定数据规范,确定翻译算法、语言知识和翻译知识的表示形式,然后 程序工作者编写程序实现翻译算法,语言工作者编写语言知识和翻译知识驱动翻译算法的运 行,两者分工合作,缺一不可。在这种工作范式下,系统翻译性能通常受到两方面因素的制约:一是算法的设计是否合 理,另一个是语言知识是否足够丰富,其中最主要的瓶颈还在于后者。一旦翻译程序编程结 束,并经过调试稳定以后,基本上就不需要再做修改,改进翻译性能的任务完全落在了语言 工作者的身上。对于基于规则的机器翻译系统而言,知识获取实际上是最大的瓶颈。通常, 经过一个人

17、一年左右的调试就能得到一个可以翻译简单句子的演示系统,但要真正得到一个 初步实用的机器翻译系统,非得要通过一批人经年累月的调试和积累不可。在上述背景下,一方面,研究者们已经建立了一定规模的规则库,覆盖了相当多的语言 现象。另一方面,基于规则的机器翻译技术不断借鉴和融合其他方法的优点,这些变化主要 体现在:在规则的获取方面,传统的规则方法主要依靠语言学家的总结进行调试,而现在更加重 视从大规模语料库中自动获取规则。传统的规则方法往往偏重描述粗粒度、全局化的大范围语言学规则知识,而现在则更加 重视描述细粒度、局部的小范围的语言学知识,呈现出“小规则库、大词典”的趋势。在知识表示方面,为了以更小的粒

18、度、更加准确地对翻译知识进行描述,一般要对单纯 的与上下文无关的规则作一些改进。改进的方法有以下两种:一种是采用特征结构与合一算 法,例如 LFG、GPSG 等等,这种方法一般要求具有较好的语言学背景;另外一种是采用词 汇化的方法对规则加以细化。传统的规则方法采用的往往是非此即彼的确定性原则,系统的鲁棒性较差,而现在的 规则系统中一般都引入各种形式的概率或者评分函数,系统的鲁棒性有所提高。概率与评分 函数方法的区别在于:前者一般有比较严格的数学模型做基础,概率值的计算要以对大规模 语料库的统计为依据;后者的主观性较强,评分规则的确定以及具体规则的分值都是人为的, 人们可以根据经验进行调整。随着

19、机器翻译研究的不断深入,规则方法存在的问题逐渐暴露出来。该方法最大的问 题在其知识获取方面,单纯依靠语言工作者人工编写规则似乎永远也不能满足实际应用的需 要。一个在市场上销售的机器翻译系统通常都要经过数十人乃至数百人的调试,但翻译效果 还是远远不能达到令人满意的程度。更为糟糕的是,人工添加规则的做法导致规则库的规模更大,而系统性能的改进则更 为困难。因为一方面规则库越大,规则之间的冲突就越多,出现了所谓的“跷跷板现象”, 系统虽然对某些句子翻译效果好了,但对另外一些句子的翻译效果反而差了,系统的整体性 能并没有提高;另一方面,在后面加入的规则通常都是一些粒度非常小的规则,只能处理非 常个别的语

20、言现象,对系统整体性能的改进很小,整个系统的性能提升极为缓慢,而这个时 期一些大型的机器翻译研究项目也都以失败而告终。基于规则的机器翻译方法似乎走到了尽 头。2异军突起的基于统计的方法基于统计的机器翻译方法把机器翻译看成是一个信息传输的过程,用一种信道模型对 机器翻译进行解释。这种思想认为,源语言句子到目标语言句子的翻译是一个概率问题,任 何一个目标语言句子都有可能是任何一个源语言句子的译文,只是概率不同,机器翻译的任 务就是找到概率最大的句子。因此统计机器翻译又可以分为以下几个问题:模型问题、训练 问题、解码问题。所谓模型问题,就是为机器翻译建立概率模型,也就是要定义源语言句子 到目标语言句

21、子的翻译概率的计算方法。而训练问题,是要利用语料库来得到这个模型的所 有参数。所谓解码问题,则是在已知模型和参数的基础上,对于任何一个输入的源语言句子, 去查找概率最大的译文。实际上,用统计学方法解决机器翻译问题的想法并非是20世纪90年代的全新思想,1949年W. Weaver就已经提出使用这种方法,只是由于乔姆斯基(Chomsky)等人的批判, 这种方法很快就被放弃了。批判的理由主要是一点:语言是无限的,基于经验主义的统计描 述无法满足语言的实际要求。另外,限于当时的计算机速度,统计的价值也无从谈起。而现 在,计算机不论从速度还是从容量方面都有了大幅度的提高,昔日大型计算机才能完成的工 作

22、,今日小型工作站或个人计算机就可以完成了。此外,统计方法在语音识别、文字识别、 词典编纂等领域的成功应用也表明这一方法在语言自动处理领域还是很有成效的。统计机器翻译方法的数学模型是由国际商业机器公司(IBM)的研究人员提出的。统计 机器翻译的基本思想是:从理论上说,这种模型只考虑了词与词之间的线性关系,没有考虑 句子的结构。这在两种语言的语序相差较大时效果可能不会太好。如果在考虑语言模型和翻 译模型时将句法结构或语义结构考虑进来,应该会得到更好的结果。统计方法的兴起缘于上世纪九十年代以来互联网的广泛应用,整个社会的信息呈现爆 炸趋势,机器翻译的需求凸显。与此同时,人们对于提高机器翻译的质量和速

23、度有了新的想 法,基于“统计”的方法备受关注。参与这个领域研究的人数和发表论文的数量都呈指数型 增长。统计机器翻译技术本身也经过了一个不断发展的过程,统计集群翻译的模型框架从早 期的噪声信道模型发展到目前普遍采用的对数线性模型,其中最主要的统计翻译模型也从早 期的基于词的模型发展到了目前主流的基于短语的模型,以及目前很多人都在进行的基于句 法的统计翻译模型研究。目前,Google的在线翻译已为人熟知,其背后的技术即为基于统计的机器翻译方法, 基本运行原理是通过搜索大量的双语网页内容,将其作为语料库,然后由计算机自动选取最 为常见的词与词的对应关系,最后给出翻译结果。不可否认,Google采用的

24、技术是先进的, 但它还是经常闹出各种“翻译笑话”。其原因在于:基于统计的方法需要大规模双语语料, 翻译模型、语言模型参数的准确性直接依赖于语料的多少,而翻译质量的高低主要取决于概 率模型的好坏和语料库的覆盖能力。基于统计的方法虽然不需要依赖大量知识,直接靠统计 结果进行歧义消解处理和译文选择,避开了语言理解的诸多难题,但语料的选择和处理工程 量巨大。因此目前通用领域的机器翻译系统很少以统计方法为主。3另辟蹊径的基于实例的方法与统计方法相同,基于实例的机器翻译方法也是一种基于语料库的方法,其基本思想由 日本著名的机器翻译专家长尾真提出,他研究了外语初学者的基本模式,发现初学外语的人 总是先记住最

25、基本的英语句子和对应的日语句子,而后做替换练习。参照这个学习过程,他 提出了基于实例的机器翻译思想,即不经过深层分析,仅仅通过已有的经验知识,通过类比 原理进行翻译。其翻译过程是首先将源语言正确分解为句子,再分解为短语碎片,接着通过 类比的方法把这些短语碎片译成目标语言短语,最后把这些短语合并成长句。对于实例方法 的系统而言,其主要知识源就是双语对照的实例库,不需要什么字典、语法规则库之类的东 西,核心的问题就是通过最大限度的统计,得出双语对照实例库。基于实例的机器翻译对于相同或相似文本的翻译有非常显著的效果,随着例句库规模的 增加,其作用也越来越显著。对于实例库中的已有文本,可以直接获得高质

26、量的翻译结果。 对与实例库中存在的实例十分相似的文本,可以通过类比推理,并对翻译结果进行少量的修 改,构造出近似的翻译结果。这种方法在初推之时,得到了很多人的推崇。但一段时期后,问题出现了。由于该方法 需要一个很大的语料库作为支撑,语言的实际需求量非常庞大。但受限于语料库规模,基于 实例的机器翻译很难达到较高的匹配率,往往只有限定在比较窄的或者专业的领域时,翻译 效果才能达到使用要求。因而到目前为止,还很少有机器翻译系统采用纯粹的基于实例的方 法,一般都是把基于实例的机器翻译方法作为多翻译引擎中的一个,以提高翻译的正确率。4各有长短 融合使用应该说,无论是直译法、转换法、中间语法,还是实例法和

27、统计法,都是各有长短。作 为理性主义范畴,前面三者属于基于规则的方法。它的典型缺点是技术粒度太大,即计算机 语言无法完全描述实际语言组合中无限丰富的规则。而作为经验主义范畴,后面两者属于基于语料库的方法,其典型缺点是数据稀疏。也就 是说,由于语言的无限性,任何高性能的计算机都无法统计出所有短语的使用情况,总是会 存在疏漏。随着这些方法的各自缺陷逐步为人们所认知,自上世纪90 年代以来,机器翻译系统的 实现越来越多地集成了不同的方法和策略,基于单一方法的产品越来越少。其中最具有代表 性的无疑是尼伦伯格提出的多引擎机器翻译系统,即系统中集成多种机器翻译的实现方法, 每种方法构成的翻译模块作为一个引

28、擎,多个引擎协同配合,共同完成翻译工作。在今后的机器翻译研究中,多种方法互相借鉴,互相融合的趋势会越来越明显。基于规 则的方法与基于语料库的方法相结合,机器翻译与翻译记忆相结合,很可能是今后研究发展 的主流方向。五、中国的在线机器翻译鉴于机器翻译仍具相当市场,中国涉足这一领域的厂商也不一而足。目前,国内市场上 的翻译软件产品可以划分为四大类:全文翻译(专业翻译)、在线翻译、汉化软件和电子词 典。全文翻译软件以中软“译星”以及“雅信CAT2.5”为代表;在线翻译软件主要以“金 山快译.net2001”、华建的“翻译网上通”为代表;汉化类翻译软件主要以“东方快车3000” 为代表;词典工具以“金山

29、词霸.net2001”为主要代表。由于机器翻译在今后需要满足人们在浩瀚的互联网上方便地进行信息搜集的需求,于是 很多翻译开发者在翻译准确度上下工夫的同时,开始注重结合用户的使用领域并进行方向性 的开发。根据目前的市场发展看来,在新一轮的竞赛中,在线翻译前景十分看好。目前,中 国的网民已超4亿,并继续以极快速度增长。六、机器翻译的质量问题及开发瓶颈很多人对机器翻译有误解,他们认为机器翻译偏差大,不能帮人们解决任何问题。其实 其误差在所难免,原因在于,机器翻译运用语言学原理,机器自动识别语法,调用存储的词 库,自动进行对应翻译,但是因语法、词法、句法发生变化或者不规则,出现错误是难免的, 比如大话

30、西游中“给我一个杀你的理由,先”之类状语后置的句子。机器毕竟是机器, 没有人对语言的特殊感情,它怎么会感受“最是那一低头的温柔,像一朵水莲花不胜凉风的 娇羞”的韵味?毕竟汉语因其词法、语法、句法的变化及其语境的更换,其意思大相径庭, 就连很多国人都是丈二和尚摸不着头脑,就别说机器了。机器翻译的开发瓶颈可归结为以下几个方面:1.汉语言中存在一些不利于机器翻译的特点将表达灵活多变的汉语通过机器自动翻译的方式转化为语法逻辑严谨的英语,在词法、 句法和语义三个层面上都存在诸多不利因素。词法层面上,汉语中存在很多兼类词、离合词、组合词和多义词,要实现它们的正确翻 译,仅仅根据词性、词义执行词的转换是远远

31、不够的,还需要从语义方面加以理解,大大增 加了系统的开发难度。同时,汉语言中词与词之间没有词界,这给机器进行词语切分造成了 很大的麻烦,极大地影响了翻译效果。句法层面上,连动句式、兼语句式、无主句、形容词谓语句及名词谓语句等的大量应用 妨碍了机器正确判断句子的结构、成分,影响了翻译结果的准确性和可读率。语义层面上,汉语言中很多表达没有明显的时态标志、名词也没有明显的单复数标志, 需要机器根据语境、语义判定,但这是绝大多数汉英机译系统难以实现的。除此之外,省略 结构、意译表达方式的存在也给机器翻译带来了新的难度。2知识抽取不易一般的机器翻译系统至少要有一、二十万条的词汇,一、两千条分析规则,以及

32、一、两 千组转换规则才足敷使用。在这些繁琐知识的抽取过程中,如何使其达到相当的涵盖面,并 且在不断更新的过程中仍然保持这些知识的一致性;如何把这些词典资料加以完善,且使里 面的规则保持一致,不互相冲突,是个非常耗时耗力、高成本、高难度的工程问题。在后续 的系统维护和完善中,这个问题也同样存在。3单向式的系统设计汉英机器翻译中存在的另一个问题,在于传统的机器翻译系统是一个单向式的设计。由 于传统的转换式机器翻译是遵循“分析”、“转换”、“生成”这三个步骤一路走下来的,这就 使得“转换”和“生成”带有了浓厚的原始语言色彩。因此,汉英翻译系统的输出结果通常 都是汉语式的英语,换言之,英文的生成语法变

33、成了汉语式的语法。而汉语言的表达非常灵 活,语法规则也比较宽松,按照这样的语法转化出来的英文需要经过相当的改善,才能达到 使用者的期望。4使用者的期望太高虽然经过几十年的发展,汉英机器翻译有了很大的进步。但就现在的水平而言,仍然 与全自动高质量的标准有着不小的差距。目前,汉英机器翻译系统的现实定位应该是:不需 要非常精准的翻译,只要译文能够忠实的表达原文意思,让阅读者基本可读即可,过分的追 求“信、达、雅”,反而会事倍功半。综上所述,不论哪种方法,影响机译发展的最大因素在于译文的质量。就已有的成就来 看,机译的质量离终极目标仍相差甚远。中国数学家、语言学家周海中曾在论文机器翻译 五十年中指出:

34、要提高机译的质量,首先要解决的是语言本身问题而不是程序设计问题; 单靠若干程序来做机译系统,肯定是无法提高机译质量的。同时,他还指出:在人类尚未明 了“人脑是如何进行语言的模糊识别和逻辑判断”的情况下,机译要想达到“信、达、雅” 的程度是不可能的。这也是制约机译质量提高的一大瓶颈。值得一提的是,美国发明家、未 来学家雷科兹威尔最近在接受赫芬顿邮报采访时预言,到2029年机译的质量将达到人 工翻译的水平。对于这一论断,学术界还存在很多争议。不论怎样,目前是人们对机译最为看好的时期,这种关注是建立在一个客观认识和理性思考的基础上的。我们也有理由相信:在计算机专家、语言学家、心理学家、逻辑学家和数

35、学家的共同努力下,机译的瓶颈问题将会得以解决。参考文献1 冯志伟,机器翻译研究,中国对外翻译出版公司,2005年1月版2 刘群,“统计机器翻译综述”,中文信息学报,2003,17(4):1-123 杨宪泽,“机器翻译的一些处理方法探讨”,西南民族大学学报(自然科学版) 2004,01机器翻译的最新进展与瓶颈所在 24552091.htmP. Brown, S. Della Pietra, V. Della Pietra, and R. Mercer (1993). The mathematicsof statistical machine translation: parameter estimation. ComputationalLinguistics, 19(2), 263-311.5.周海中,“机器翻译50年”. 语文研究群言集,中山大学出版社,1 997年。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!