语音合成论文

上传人:m**** 文档编号:146379397 上传时间:2022-08-31 格式:DOC 页数:6 大小:68.50KB
收藏 版权申诉 举报 下载
语音合成论文_第1页
第1页 / 共6页
语音合成论文_第2页
第2页 / 共6页
语音合成论文_第3页
第3页 / 共6页
资源描述:

《语音合成论文》由会员分享,可在线阅读,更多相关《语音合成论文(6页珍藏版)》请在装配图网上搜索。

1、姓名:孙亚非 学号:201120195010 摘要:本文介绍了语音合成技术的发展过程及其现状,及其目前常用的一一些合成的方法(共 振峰合成,LPC参数合成,PSOLA合成技术,LMA声道模型)。还介绍了语音合成技术的一 些应用。关键词:语音合成;LPC;PSOLA;LMA;应用Abstract: The article describes the development progress of a speech synthesis technology and the status quo ,and the most commonly used synthetic methods(Forman

2、t synthesis ,LPC parameter synthesis ,PLOSA synthesis technology ,LMA-channel model).Also describes some applications of speech synthesis technology.Keywords: speech synthesis; LPC;PSOLA;LMA; application1.前言语音合成1是通过机械的、电子的方法 产生人造语音的技术。TTS技术(又称文语 转换技术)隶属于语音合成,它是将计算机 自己产生的、或外部输入的文字信息转变为 可以听得懂的、流利的汉语口语

3、输出的技术。 语音合成是人机语音通信的一个重要组成部 分。语音合成研究的目的是制造一种会说话 的机器,它解决的是如何让机器象人那样说 话的问题,使一些以其它方式表示或存储的 信息能转换为语音,让人们能通过听觉而方 便地获得这些信息。语音合成和语音识别技术是实现人机语 音通信,建立一个有听和讲能力的口语系统 所必需的两项关键技术。使电脑具有类似于 人一样的说话能力,是当今时代信息产业的 重要竞争市场。和语音识别相比,语音合成 的技术相对说来要成熟一些,并已开始向产 业化方向成功迈进,大规模应用指日可待。 语音合成,能将任意文字信息实时转化为标 准流畅的语音朗读出来,相当于给机器装上 了人工嘴巴。

4、2.发展历程及其现状的概述1,2,5纵观语音合成技术的研究已有二百多 年的历史,早在现代电子信号处理技术发明 以前,人们就开始试图建造发出人类语音的 机器和机械设备,比如Gerbert、Albertus Magnus 和 Roger Bacon 制造的 “speaking head”。以后又有人制造出可以发出元音和辅 音的机器。1930年,贝尔实验室开发了声音编码器。 这是一个用键盘操作的电子语音分析器和合 成器。第一个基于计算机的语音合成系统在 50年代后期诞生。第一个完整的TTS系统在 1968年完成。从那时起,语音合成技术经历 了各种各样的改进。在语音合成技术的发展 过程中,早期的研究主

5、要是采用参数合成方 法,后来随着计算机技术的发展又出现了波 形拼接的合成方法。2.1参数合成在语音合成技术的发展中,早期的研究 主要是采用参数合成方法。值得提及的是 Holmes的并联共振峰合成器(1973)和Klatt 的串/并联共振峰合成器(1980),只要精心 调整参数,这两个合成器都能合成出非常自 然的语音。最具代表性的文语转换系统当数 美国DEC公司的DECtalk (1987)。但是经 过多年的研究与实践表明,由于准确提取共 振峰参数比较困难,虽然利用共振峰合成器 可以得到许多逼真的合成语音,但是整体合 成语音的音质难以达到文语转换系统的实用 要求。2.2波形拼接自八十年代末期至今

6、,语言合成技术又 有了新的进展,特别是基音同步叠加 (PSOLA)方法的提出(1990),使基于时域 波形拼接方法合成的语音的音色和自然度大 大提高。九十年代初,基于PSOLA技术的法 语、德语、英语、日语等语种的文语转换系 统都已经研制成功。这些系统的自然度比以 前基于LPC方法或共振峰合成器的文语合成 系统的自然度要高,并且基于PSOLA方法的 合成器结构简单易于实时实现,有很大的商 用前景。国内的汉语语音合成研究起步较晚 些,但从八十年代初就基本上与国际上研究 同步发展。大致也经历了共振峰合成、LPC 合成至应用PSOLA技术的过程。在国家863 计划,国家自然科学基金委,国家中国科学

7、院有关项目等支持下,汉语文语转换系统研 究近年来取得了令人举目的进展,其中不乏 成功的例子:如中国科学院声学所的 KX-PSOLA (1993),联想佳音(1995);清 华大学的TH_SPEECH (1993);中国科技大学 的KDTALK(1995)等系统。这些系统基本 上都是采用基于PSOLA方法的时域波形拼 接技术,其合成汉语普通话的可懂度、清晰 度达到了很高的水平。然而同国外其它语种 的文语转换系统一样,这些系统合成的句子 及篇章语音机器味较浓,其自然度还不能达 到用户可广泛接受的程度,从而制约了这项 技术的大规模进入市场。3.语音合成技术常用方法及其比较3.1共振峰合成语音合成的理

8、论基础是语音生成的数学 模型。该模型语音生成过程是在激励信号的 激励下,声波经谐振腔(声道)由嘴或鼻辐 射声波。因此,声道参数、声道谐振特性一 直是研究的重点。在图1所示的某一语言的 频率响应图中,标有Fp1、Fp2、Fp3.处为 响应的极点,此时,声道的传输频率响应有 极大值。习惯上,把声道传输频率响应上的 极点称为共振峰,而语音的共振峰频率(极 点频率)的分布特性决定着该语音的音色。 音色各异的语音具有不同的共振峰模式,因 此,以每个共振峰频率及其带宽作为参数, 可以构成共振峰滤波器。再用若干个这种滤 波器的组合来模拟声道的传输特性(频率响 应),对激励源发出的信号进行调制,再经过 辐射模

9、型就可以得到合成语音。这就是共振基于共振峰的理论有以下三种实用模 型。(1)级联型共振峰模型。在该模型中, 声道被认为是一组串联的二阶谐振器。该模 型主要用于绝大部分元音的合成。(2)并联型共振峰模型。许多研究者 认为,对于鼻化元音等非一般元音以及大部 分辅音,上述级联型模型不能很好地加以描 述和模拟,因此,构筑和产生了并联型共振 峰模型。(3)混合型共振峰模型。在级联型共 振峰合成模型中,共振峰滤波器首尾相接; 而在并联型模型中,输入信号先分别通过幅 度调节再加到每一个共振峰滤波器上,然后 将各路的输出叠加起来。将两者比较,对于 合成声源位于声道末端的语音(大多数的元 音),级联型合乎语音产

10、生的声学理论,并且 无需为每一个滤波器分设幅度调节;而对于 合成声源位于声道中间的语音(大多数清擦 音和塞音),并联型则比较合适,但是其幅度 调节很复杂。基于此种考虑,人们将两者结 合在一起,提出了混和型共振峰模型。如图 2所示:事实上上述三种共振峰模型在实际 中都得到了成功的应甩 例如: Fant的OVE 系统就采用了级联型的共振峰模型; Holmes合成器采用的是并联型的共振峰 模型而最为典型也是最为成功的Klatt合 成器则构筑在混合型共振峰模型的基础 之上。在汉语语音合成方面研究人员研 制出了一些基于共振峰模型的成功的应 用系统。如社科院语言所的SIFS合成器中院声学所的KX 1系统中

11、基于H olme的 并联型共振峰合成器模型而同样由中科 院声学所开发的第二代共振峰合成器KX FSS则基于Klatt合成器但是,人们同时也发现该技术有明显的 弱点。首先由于它是建立在对声道的模拟上, 因此,对于声道模型的不精确势必会影响其 合成质量。另外,实际工作表明,共振峰模 型虽然描述了语音中最基本最主要的部分, 但并不能表征影响语音自然度的其他许多细 微的语音成分,从而影响了合成语音的自然 度。另外,共振峰合成器控制十分复杂,对 于一个好的合成器来说,其控制参数往往达 到几十个,实现起来十分困难。基于这些原 因,研究者继续寻求和发现其他新的合成技 术。人们从波形的直接录制和播放得到启发,

12、 提出了基于波形拼接的合成技术,LPC合成 技术和PSOLA合成技术是其中的代表。与共 振峰合成技术不同,波形拼接合成是基于对 录制的合成基元的波形进行拼接,而不是基 于对发声过程的模拟。3.2 LPC参数合成波形拼接技术的发展与语音的编、解码 技术的发展密不可分,其中LPC技术(线性 预测编码技术)的发展对波形拼接技术产生 了巨大的影响。LPC合成技术本质上是一种 时间波形的编码技术,目的是为了降低时间 域信号的传输速率。LPC合成技术的优点是简单直观。其合 成过程实质上只是一种简单的解码和拼接过 程。另外,由于波形拼接技术的合成基元是 语音的波形数据,保存了语音的全部信息, 因而对于单个合

13、成基元来说能够获得很高的 自然度。但是,由于自然语流中的语音和孤 立状况下的语音有着极大的区别,如果只是 简单地把各个孤立的语音生硬地拼接在一 起,其整个语流的质量势必是不太理想的。 而LPC技术从本质上来说只是一种录音+重 放,对于合成整个连续语流LPC合成技术的 效果是不理想的。因此,LPC合成技术必须 和其他技术相结合,才能明显改善LPC合成 的质量。一种典型的基于单音节和即QLPC(矢 量统原理图如迥汇支持眸量化的lPC技术的文i蜜数解码Lf轉征诚词库谄评输tn图33倒3展于单赶节和他旳植术的文语转横務境顶理(E3.3 PSOLA合成技术1220世纪80年代末提出的PSOLA合成技 术

14、(基音同步叠加技术)给波形拼接合成技 术注入了新的活力。PSOLA技术着眼于对语 音信号超时段特征的控制,如基频、时长、 音强等的控制。而这些参数对于语音的韵律 控制以及修改是至关重要的,因此,PSOLA 技术比LPC技术具有可修改性更强的优点, 可以合成出高自然度的语音。PSOLA技术的主要特点是:在拼接语 音波形片断之前,首先根据上下文的要求, 用PSOLA算法对拼接单元的韵律特征进行 调整,使合成波形既保持了原始发音的主要 音段特征,又能使拼接单元的韵律特征符合 上下文的要求,从而获得很高的清晰度和自 然度。PSOLA技术保持了传统波形拼接技术 的优点,简单直观,运算量小,而且还能方 便

15、地控制语音信号的韵律参数,具有合成自 然连续语流的条件,得到了广泛的应用。但是,PSOLA技术也有其缺点。首先, PSOLA技术是一种基音同步的语音分析/合 成技术,首先需要准确的基因周期以及对其 起始点的判定。基音周期或其起始点的判定 误差将会影响PSOLA技术的效果。其次, PSOLA技术是一种简单的波形映射拼接合 成,这种拼接是否能够保持平稳过渡以及它 对频域参数有什么影响等并没有得到解决, 因此,在合成时会产生不理想的结果。3.4 LMA(Log Magnitude Approximate)声道 模型随着人们对语音合成的自然度和音质的 要求越来越高,PSOLA算法表现出对韵律参 数调整

16、能力较弱和难以处理协同发音的缺 陷,因此,人们又提出了一种基于LMA声道 模型的语音合成方法。这种方法具有传统的 参数合成可以灵活调节韵律参数的优点,同 时又具有比PSOLA算法更高的合成音质。目 前,主要的语音合成技术是共振峰合成技术 和基于PSOLA算法的波形拼接合成技术。这 两种技术各有所长,共振峰技术比较成熟, 有大量的研究成果可以利用,而PSOLA技术 则是比较新的技术,具有良好的发展前景。 过去这两种技术基本上是互相独立发展的, 现在许多学者开始研究它们两者之间的关 系,试图将两者有效地结合起来,从而合成 出更加自然的语流。4语音合成技术的应用示例结合其他技术语音合成技术可以广泛

17、应用于金、邮电、工商、政府机关、交通、教 育、游戏等领域。下面介绍几个实用的语音 合成系统41工商信息电话査询系统3 6本系统的功能是让用户可以通过电话 查询到某一企业在工商局的注册信息。用户 主要通过输入注册号、统一代码或者企业电 话号码等来查询相应的企业信息。目前,科 大讯飞公司正与IBM公司合作将采用电话 语音识别技术来实现语音选择也就是说 用户只需口述企业名称(包括带一定模糊概 念的口述如科大讯飞或讯飞均可识别), 即可直接得到该企业的一系列信息。这与过 去的按键听取相比不仅方便了用户,还从 很大程度上提高了查询效率 节约了用户的 宝贵时间。另一方面查询结果除了可以通 过电话直接听取外

18、还可通过传真机接收到 相关企业的详细信息(包括图像信息)。4.2电话银行系统中科大讯飞公司开发的电话银行系统 通过采用与中国科大人机语音通信实验室 合作研究的KDD200(语音合成技术使金额 数目的报读声音清晰f、语流自然 避免了用 户听错数目的可能 提高了用户的满意度 系统可以实现收付款汇率查询余额查询 日记账通知、挂失明细、凭证等功能举 例说明如下:查询余额根据用户输入的账号 报出该 账户的余额。查询交易查询当天交易或者指定日期 区间内的历史交易。查询结果可以通过电话 听取也可以用传真机接收格式可由银行 指定。挂失服务用户遗失存折或信用卡后可 以通过电话及时挂先挂失之后这个账号 的所有功能

19、将暂停。修改密码用户每隔一定时间更改一下 密码有助于提高安全性将他人盗用的可 能性降到最低。转账服务借助电话实现指定账户间的 转账业务一般是在同名用户的不同账号或 信用卡之间相互转账,4.3普通话教学软件-制作该软件的目的是帮助港澳台、粤 等想学普通话的用户。以往的普通话教学软 件只是将预先录好音的单词逐个读给用户 听 而有了语音合成技术 我们可以将任意 文本中的整句话、整段话读给用户听这样 用户不仅可以学习每个单词在句中该如何 发音 而且可以学习整个句子的语调 节奏 学习效率会有明显的提高。当粤语等其他语 音的合成技术达到实用时,其他语言的学习 软件也会问世5.结束语计算机要真正能够象人一样

20、的说话,和 人类自由地进行交谈,这仍然是需假以时日, 还有大量的研究工作要去做;今天的文语转 换系统只能机械地朗读文章,与生动活泼、 感情丰富多彩的人类语言相比差距是如此之 大;但是毋庸置疑,语音合成技术确实已经 可以走出实验室了,其潜在的巨大市场已露 出曙光。参考文献1 陈静,李薇,崔忠伟,刘霞语音合成技术的研究及其发展J.中国科技信息.2007(14)2 阿日木扎,报春没,马占新语音合成技术及其研究发展J.内蒙古科技与经济.2010(18)3 李晓红.面向语音合成的文本处理技术的改进D.北京交通大学201024 徐军,侯继红.LPC语音合成技术及其在微机上的应用J.山东电子.1996(03)5 王仁华.语音合成技术最新研究进展及其应用展望J.中兴通讯技术.2003(05)6 唐浩.语音合成技术应用实例(Z).中国科学技术大学人机语音通信国家重点实验室.7 张岩,吴仙仙基于语音合成技术的可视语音教学系统J.福建电脑.2010(10)

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!