语音合成论文

上传人：m**** 文档编号：146379397 上传时间：2022-08-31 格式：DOC 页数：6 大小：68.50KB

收藏版权申诉举报下载

第1页 / 共6页

第2页 / 共6页

第3页 / 共6页

下载文档到电脑，查找使用更方便

15 积分

下载资源

资源描述：

《语音合成论文》由会员分享，可在线阅读，更多相关《语音合成论文（6页珍藏版）》请在装配图网上搜索。

1、姓名：孙亚非学号：201120195010 摘要:本文介绍了语音合成技术的发展过程及其现状，及其目前常用的一一些合成的方法(共振峰合成，LPC参数合成，PSOLA合成技术,LMA声道模型)。还介绍了语音合成技术的一些应用。关键词：语音合成；LPC;PSOLA;LMA;应用Abstract： The article describes the development progress of a speech synthesis technology and the status quo ,and the most commonly used synthetic methods(Forman

2、t synthesis ,LPC parameter synthesis ,PLOSA synthesis technology ,LMA-channel model).Also describes some applications of speech synthesis technology.Keywords： speech synthesis; LPC;PSOLA;LMA; application1.前言语音合成1是通过机械的、电子的方法产生人造语音的技术。TTS技术（又称文语转换技术）隶属于语音合成，它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语

3、输出的技术。语音合成是人机语音通信的一个重要组成部分。语音合成研究的目的是制造一种会说话的机器，它解决的是如何让机器象人那样说话的问题，使一些以其它方式表示或存储的信息能转换为语音，让人们能通过听觉而方便地获得这些信息。语音合成和语音识别技术是实现人机语音通信，建立一个有听和讲能力的口语系统所必需的两项关键技术。使电脑具有类似于人一样的说话能力，是当今时代信息产业的重要竞争市场。和语音识别相比，语音合成的技术相对说来要成熟一些，并已开始向产业化方向成功迈进，大规模应用指日可待。语音合成，能将任意文字信息实时转化为标准流畅的语音朗读出来，相当于给机器装上了人工嘴巴。

4、2.发展历程及其现状的概述1,2,5纵观语音合成技术的研究已有二百多年的历史，早在现代电子信号处理技术发明以前，人们就开始试图建造发出人类语音的机器和机械设备，比如Gerbert、Albertus Magnus 和 Roger Bacon 制造的 “speaking head”。以后又有人制造出可以发出元音和辅音的机器。1930年，贝尔实验室开发了声音编码器。这是一个用键盘操作的电子语音分析器和合成器。第一个基于计算机的语音合成系统在 50年代后期诞生。第一个完整的TTS系统在 1968年完成。从那时起，语音合成技术经历了各种各样的改进。在语音合成技术的发展过程中，早期的研究主

5、要是采用参数合成方法，后来随着计算机技术的发展又出现了波形拼接的合成方法。2.1参数合成在语音合成技术的发展中，早期的研究主要是采用参数合成方法。值得提及的是 Holmes的并联共振峰合成器（1973）和Klatt 的串/并联共振峰合成器（1980），只要精心调整参数，这两个合成器都能合成出非常自然的语音。最具代表性的文语转换系统当数美国DEC公司的DECtalk （1987）。但是经过多年的研究与实践表明，由于准确提取共振峰参数比较困难，虽然利用共振峰合成器可以得到许多逼真的合成语音，但是整体合成语音的音质难以达到文语转换系统的实用要求。2.2波形拼接自八十年代末期至今

6、，语言合成技术又有了新的进展，特别是基音同步叠加（PSOLA）方法的提出（1990）,使基于时域波形拼接方法合成的语音的音色和自然度大大提高。九十年代初，基于PSOLA技术的法语、德语、英语、日语等语种的文语转换系统都已经研制成功。这些系统的自然度比以前基于LPC方法或共振峰合成器的文语合成系统的自然度要高，并且基于PSOLA方法的合成器结构简单易于实时实现，有很大的商用前景。国内的汉语语音合成研究起步较晚些，但从八十年代初就基本上与国际上研究同步发展。大致也经历了共振峰合成、LPC 合成至应用PSOLA技术的过程。在国家863 计划，国家自然科学基金委，国家中国科学

7、院有关项目等支持下，汉语文语转换系统研究近年来取得了令人举目的进展，其中不乏成功的例子：如中国科学院声学所的 KX-PSOLA （1993）,联想佳音（1995）；清华大学的TH_SPEECH （1993）；中国科技大学的KDTALK（1995）等系统。这些系统基本上都是采用基于PSOLA方法的时域波形拼接技术，其合成汉语普通话的可懂度、清晰度达到了很高的水平。然而同国外其它语种的文语转换系统一样，这些系统合成的句子及篇章语音机器味较浓，其自然度还不能达到用户可广泛接受的程度，从而制约了这项技术的大规模进入市场。3.语音合成技术常用方法及其比较3.1共振峰合成语音合成的理

8、论基础是语音生成的数学模型。该模型语音生成过程是在激励信号的激励下，声波经谐振腔（声道）由嘴或鼻辐射声波。因此，声道参数、声道谐振特性一直是研究的重点。在图1所示的某一语言的频率响应图中，标有Fp1、Fp2、Fp3.处为响应的极点，此时，声道的传输频率响应有极大值。习惯上，把声道传输频率响应上的极点称为共振峰，而语音的共振峰频率（极点频率）的分布特性决定着该语音的音色。音色各异的语音具有不同的共振峰模式，因此，以每个共振峰频率及其带宽作为参数，可以构成共振峰滤波器。再用若干个这种滤波器的组合来模拟声道的传输特性（频率响应），对激励源发出的信号进行调制，再经过辐射模

9、型就可以得到合成语音。这就是共振基于共振峰的理论有以下三种实用模型。（1）级联型共振峰模型。在该模型中, 声道被认为是一组串联的二阶谐振器。该模型主要用于绝大部分元音的合成。（2）并联型共振峰模型。许多研究者认为，对于鼻化元音等非一般元音以及大部分辅音，上述级联型模型不能很好地加以描述和模拟，因此，构筑和产生了并联型共振峰模型。（3）混合型共振峰模型。在级联型共振峰合成模型中，共振峰滤波器首尾相接；而在并联型模型中，输入信号先分别通过幅度调节再加到每一个共振峰滤波器上，然后将各路的输出叠加起来。将两者比较，对于合成声源位于声道末端的语音（大多数的元音），级联型合乎语音产

10、生的声学理论，并且无需为每一个滤波器分设幅度调节；而对于合成声源位于声道中间的语音（大多数清擦音和塞音），并联型则比较合适，但是其幅度调节很复杂。基于此种考虑，人们将两者结合在一起，提出了混和型共振峰模型。如图 2所示：事实上上述三种共振峰模型在实际中都得到了成功的应甩例如: Fant的OVE 系统就采用了级联型的共振峰模型； Holmes合成器采用的是并联型的共振峰模型而最为典型也是最为成功的Klatt合成器则构筑在混合型共振峰模型的基础之上。在汉语语音合成方面研究人员研制出了一些基于共振峰模型的成功的应用系统。如社科院语言所的SIFS合成器中院声学所的KX 1系统中

11、基于H olme的并联型共振峰合成器模型而同样由中科院声学所开发的第二代共振峰合成器KX FSS则基于Klatt合成器但是，人们同时也发现该技术有明显的弱点。首先由于它是建立在对声道的模拟上，因此，对于声道模型的不精确势必会影响其合成质量。另外，实际工作表明，共振峰模型虽然描述了语音中最基本最主要的部分，但并不能表征影响语音自然度的其他许多细微的语音成分，从而影响了合成语音的自然度。另外，共振峰合成器控制十分复杂，对于一个好的合成器来说，其控制参数往往达到几十个，实现起来十分困难。基于这些原因，研究者继续寻求和发现其他新的合成技术。人们从波形的直接录制和播放得到启发，

12、提出了基于波形拼接的合成技术，LPC合成技术和PSOLA合成技术是其中的代表。与共振峰合成技术不同，波形拼接合成是基于对录制的合成基元的波形进行拼接，而不是基于对发声过程的模拟。3.2 LPC参数合成波形拼接技术的发展与语音的编、解码技术的发展密不可分，其中LPC技术（线性预测编码技术）的发展对波形拼接技术产生了巨大的影响。LPC合成技术本质上是一种时间波形的编码技术，目的是为了降低时间域信号的传输速率。LPC合成技术的优点是简单直观。其合成过程实质上只是一种简单的解码和拼接过程。另外，由于波形拼接技术的合成基元是语音的波形数据，保存了语音的全部信息，因而对于单个合

13、成基元来说能够获得很高的自然度。但是，由于自然语流中的语音和孤立状况下的语音有着极大的区别，如果只是简单地把各个孤立的语音生硬地拼接在一起，其整个语流的质量势必是不太理想的。而LPC技术从本质上来说只是一种录音+重放，对于合成整个连续语流LPC合成技术的效果是不理想的。因此，LPC合成技术必须和其他技术相结合，才能明显改善LPC合成的质量。一种典型的基于单音节和即QLPC（矢量统原理图如迥汇支持眸量化的lPC技术的文i蜜数解码Lf轉征诚词库谄评输tn图33倒3展于单赶节和他旳植术的文语转横務境顶理（E3.3 PSOLA合成技术1220世纪80年代末提出的PSOLA合成技术

14、（基音同步叠加技术）给波形拼接合成技术注入了新的活力。PSOLA技术着眼于对语音信号超时段特征的控制，如基频、时长、音强等的控制。而这些参数对于语音的韵律控制以及修改是至关重要的，因此，PSOLA 技术比LPC技术具有可修改性更强的优点，可以合成出高自然度的语音。PSOLA技术的主要特点是：在拼接语音波形片断之前，首先根据上下文的要求，用PSOLA算法对拼接单元的韵律特征进行调整，使合成波形既保持了原始发音的主要音段特征，又能使拼接单元的韵律特征符合上下文的要求，从而获得很高的清晰度和自然度。PSOLA技术保持了传统波形拼接技术的优点，简单直观，运算量小，而且还能方便

15、地控制语音信号的韵律参数，具有合成自然连续语流的条件，得到了广泛的应用。但是，PSOLA技术也有其缺点。首先， PSOLA技术是一种基音同步的语音分析/合成技术，首先需要准确的基因周期以及对其起始点的判定。基音周期或其起始点的判定误差将会影响PSOLA技术的效果。其次， PSOLA技术是一种简单的波形映射拼接合成，这种拼接是否能够保持平稳过渡以及它对频域参数有什么影响等并没有得到解决，因此，在合成时会产生不理想的结果。3.4 LMA（Log Magnitude Approximate）声道模型随着人们对语音合成的自然度和音质的要求越来越高，PSOLA算法表现出对韵律参数调整

16、能力较弱和难以处理协同发音的缺陷，因此，人们又提出了一种基于LMA声道模型的语音合成方法。这种方法具有传统的参数合成可以灵活调节韵律参数的优点，同时又具有比PSOLA算法更高的合成音质。目前，主要的语音合成技术是共振峰合成技术和基于PSOLA算法的波形拼接合成技术。这两种技术各有所长，共振峰技术比较成熟，有大量的研究成果可以利用，而PSOLA技术则是比较新的技术，具有良好的发展前景。过去这两种技术基本上是互相独立发展的，现在许多学者开始研究它们两者之间的关系，试图将两者有效地结合起来，从而合成出更加自然的语流。4语音合成技术的应用示例结合其他技术语音合成技术可以广泛

17、应用于金、邮电、工商、政府机关、交通、教育、游戏等领域。下面介绍几个实用的语音合成系统41工商信息电话査询系统3 6本系统的功能是让用户可以通过电话查询到某一企业在工商局的注册信息。用户主要通过输入注册号、统一代码或者企业电话号码等来查询相应的企业信息。目前，科大讯飞公司正与IBM公司合作将采用电话语音识别技术来实现语音选择也就是说用户只需口述企业名称（包括带一定模糊概念的口述如科大讯飞或讯飞均可识别）, 即可直接得到该企业的一系列信息。这与过去的按键听取相比不仅方便了用户，还从很大程度上提高了查询效率节约了用户的宝贵时间。另一方面查询结果除了可以通过电话直接听取外

18、还可通过传真机接收到相关企业的详细信息（包括图像信息）。4.2电话银行系统中科大讯飞公司开发的电话银行系统通过采用与中国科大人机语音通信实验室合作研究的KDD200（语音合成技术使金额数目的报读声音清晰f、语流自然避免了用户听错数目的可能提高了用户的满意度系统可以实现收付款汇率查询余额查询日记账通知、挂失明细、凭证等功能举例说明如下：查询余额根据用户输入的账号报出该账户的余额。查询交易查询当天交易或者指定日期区间内的历史交易。查询结果可以通过电话听取也可以用传真机接收格式可由银行指定。挂失服务用户遗失存折或信用卡后可以通过电话及时挂先挂失之后这个账号的所有功能

19、将暂停。修改密码用户每隔一定时间更改一下密码有助于提高安全性将他人盗用的可能性降到最低。转账服务借助电话实现指定账户间的转账业务一般是在同名用户的不同账号或信用卡之间相互转账，4.3普通话教学软件-制作该软件的目的是帮助港澳台、粤等想学普通话的用户。以往的普通话教学软件只是将预先录好音的单词逐个读给用户听而有了语音合成技术我们可以将任意文本中的整句话、整段话读给用户听这样用户不仅可以学习每个单词在句中该如何发音而且可以学习整个句子的语调节奏学习效率会有明显的提高。当粤语等其他语音的合成技术达到实用时，其他语言的学习软件也会问世5.结束语计算机要真正能够象人一样

20、的说话，和人类自由地进行交谈，这仍然是需假以时日，还有大量的研究工作要去做；今天的文语转换系统只能机械地朗读文章，与生动活泼、感情丰富多彩的人类语言相比差距是如此之大；但是毋庸置疑，语音合成技术确实已经可以走出实验室了，其潜在的巨大市场已露出曙光。参考文献1 陈静，李薇，崔忠伟，刘霞语音合成技术的研究及其发展J.中国科技信息.2007(14)2 阿日木扎，报春没，马占新语音合成技术及其研究发展J.内蒙古科技与经济.2010(18)3 李晓红.面向语音合成的文本处理技术的改进D.北京交通大学201024 徐军，侯继红.LPC语音合成技术及其在微机上的应用J.山东电子.1996(03)5 王仁华.语音合成技术最新研究进展及其应用展望J.中兴通讯技术.2003(05)6 唐浩.语音合成技术应用实例(Z).中国科学技术大学人机语音通信国家重点实验室.7 张岩，吴仙仙基于语音合成技术的可视语音教学系统J.福建电脑.2010(10)

展开阅读全文

温馨提示:
1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

备案号:蜀ICP备2024067431号-1 川公网安备51140202000466号

本站为文档C2C交易模式，即用户上传的文档直接被用户下载，本站只是中间服务平台，本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私，请立即通知装配图网，我们立即给予删除！

语音合成论文

最新文档

相关资源

相关搜索