一种改进的CGGMM和谱激励联合语音转换技术研究硕士

上传人:沈*** 文档编号:131578526 上传时间:2022-08-06 格式:DOC 页数:72 大小:2.23MB
收藏 版权申诉 举报 下载
一种改进的CGGMM和谱激励联合语音转换技术研究硕士_第1页
第1页 / 共72页
一种改进的CGGMM和谱激励联合语音转换技术研究硕士_第2页
第2页 / 共72页
一种改进的CGGMM和谱激励联合语音转换技术研究硕士_第3页
第3页 / 共72页
资源描述:

《一种改进的CGGMM和谱激励联合语音转换技术研究硕士》由会员分享,可在线阅读,更多相关《一种改进的CGGMM和谱激励联合语音转换技术研究硕士(72页珍藏版)》请在装配图网上搜索。

1、学科门类: 工学 分 类 号: 论文编号: 硕101 密 级: 硕 士 学 位 论 文论 文 题 目 一种改善的CG-GMM和谱鼓励联合语音转换技术研究 专 业 名 称 信号与信息解决 研 究 方 向 现代语音通信技术 论文提交日期 -3-7 摘 要语音转换是指变化一种人(源说话人)的语音特性,使之具有另一种人(目的说话人)的语音特性,从而使源说话人的语音听起来像目的说话人的语音的一种语音解决技术。该技术无论在商业领域还是在实用领域均有良好的发展前景和巨大的应用价值。本文一方面对LPC倒谱和线谱对LSF两种参数的转换性能进行比较;然后在既有的基音周期检测措施的基本上,提出一种基于Hilbert

2、变换的残差倒谱基音周期检测措施,该措施可以提高基音检测的精确性。另一方面重点研究了基于GMM的频谱包络转换措施,并对既有的CG-GMM措施进行改善,通过引入后验概率门限将GMM和VQ较好地结合起来,既避免了VQ的非持续性又减轻了CG-GMM的过平滑性。 最后对谱鼓励转换措施进行改善:基于MMSE准则,引入一种权重因子,将预测目的鼓励和残差波形转换这两种措施较好地结合起来,获取比较好的鼓励信号。本文运用MATLAB仿真,从主、客观两个方面对系统的性能进行评价。仿真成果表白,本文提出的改善措施可以获得较好的效果。核心词:语音转换,谱包络转换,高斯混合模型,谱鼓励转换,Hilbert变换,基音标注,

3、后验概率门限ABSTRACTVoice conversion is a technology about that changes one persons (source speaker) voice character into another speakers (target speaker) voice character, so that the source speakers voice sounds like the target speakers voice. The technology has good prospects in business and practical

4、areas.Firstly, this paper compares LPC cepstral parameter and LSF parameter;Then it proposes a new residual cepstral pitch detection algorithm that based on Hilbert transform,This algorithm can improve the accuracy of pitch detection.Secondly, this paper proposed a new method based on the existing C

5、G-GMM method which combines the GMM algorithm and the VQ algorithm by introducing posterior probability threshold. This method not only reduces the problem of non-continuity but also relieves the over-smoothing problem.Finally, this paper improves the traditional spectral excitation conversion metho

6、d by combining the predicted target residual method and residual waveform conversion method,Simulation results show that the methods proposed in the paper can achieve better effects.Keyword: Voice Conversion, Spectral Envelope Transformation, Gaussian Mixture Model, Spectral Excitation Transformatio

7、n, Hilbert Transform, Pitch Marking, Posterior Probability Threshold.目 录摘 要IABSTRACTII目录III第一章 绪论11.1语音转换的研究意义11.2语音转换的研究现状21.3语音的特性描述31.3.1语音的产生机理31.3.2语音的数学模型51.4语音转换的评价措施61.4.1客观评价措施61.4.2主观评价措施71.5本文的研究内容和组织构造8第二章 语音转换技术研究102.1语音转换框架102.2语音模型112.3语音预解决122.4线性预测分析142.4.1线性预测分析原理142.4.2两种推演参数的比较16

8、2.5频谱包络转换192.5.1矢量码本映射(VQ)192.5.2高斯混合模型(GMM)212.6语音合成232.7本章小结24第三章 基音检测措施研究253.1基音周期转换措施253.2基音周期转换仿真成果263.3基音周期估计273.3.1自有关法(ACF)283.3.2平均幅度差函数法(AMDF/SMDF)303.3.3倒谱法(CEP)313.3.4残差倒谱基音检测法(LP-CEP)323.3.5一种新的基于Hilbert变换的残差倒谱基音检测法343.4语音的基音标注363.5本章小结36第四章 一种改善的CG-GMM和谱鼓励联合转换研究374.1基于CG-GMM的语音转换研究374.

9、1.1老式GMM存在的问题374.1.2语音转换的算法研究374.1.3后验概率门限404.1.4 CG-GMM转换措施的研究414.1.5 改善的CG-GMM转换措施研究434.2谱鼓励转换研究464.2.1声门波鼓励464.2.2谱鼓励转换的研究现状474.2.3老式的谱鼓励转换措施474.2.4改善的谱鼓励转换措施504.3本章小结52第五章 实验成果及性能研究535.1实验平台和框架535.1.1实验平台535.1.2实验框图535.1.3实验成果555.2客观测试成果605.3主观测试成果615.4本章小结62第六章 总结与展望636.1本文工作总结636.2 此后研究展望63第一章

10、 绪论1.1语音转换的研究意义语音转换(VT, Voice Transformation或VC, Voice Conversion)是指将一种说话人(源说话人, Source Speaker)的语音特性转换成另一说话人(目的说话人,Target Speaker)的语音特性,这就规定在转换过程中变化源语音个性化信息的同步保持语义信息不变,使源说话人的声音听起来像目的说话人的声音。语音转换技术最初属于语音辨认的技术范畴,对说话人语音特性的转换重要有两大方面:音段特性的转换和韵律特性的转换。音段特性一般由语音的频谱包络表达;韵律特性(超音段特性)则由基音周期、时长、能量表达。语音转换技术有着良好的发

11、展前景和巨大的应用价值,具体体目前如下几种方面:(1)在文语转换系统中的应用(TTS,Text-To-Speech)。所谓文语转换就是指将文本文献通过一定的软硬件转换后由计算机或者电话语音等系统输出语音的过程,既有的文语转换系统无论采用哪种措施,最后合成的语音的个性特性都是单一的,缺少个性化的特性,但如果在合成语音的过程中进行有关的语音转换解决,那么合成出来的语音就增长了说话人的个性特性。(2)在保密通信中的应用。例如将说话人的语音特性参数在一定的规则下进行转换,相称于对语音进行“加密”解决。这样在传播过程中虽然是被窃听,也很难猜想出接受的语音内容。(3)在医学领域的应用。在医学上可以将语音转

12、换用于恢复受损的声音,提高某些声道受损的人的语音质量,增长受损声音的可懂度。(4)在电影配音中的应用。在诸多电影中我们听到的声音是配音演员的声音,而配音演员跟演员本人的语音个性特性差别很大,因此效果不是较好。若是运用语音转换技术使配音的人具有与演员自身相似的语音特性,效果就会好诸多。(5)在某些特殊场合的应用。例如潜水员在深海下的氦气里发出的声音清晰度很低,如果不做任何解决,几乎无法听懂。运用语音转换技术可以提高语音的清晰度。 1.2语音转换的研究现状 在过去近二十年中,语音转换引起了人们的注重,某些语音学者相继在这方面做了诸多工作。国外的研究状况:Abe提出了基于矢量量化的码本映射进行频谱包

13、络转换的措施,获得了较好的效果,但此措施存在频谱不持续的缺陷,导致转换后的语音的音质不佳;Arslan对此进行改善,提出加权矢量量化法;Mizuno则提出了提取共振峰并对各共振峰分别采用线性转换的措施实现谱包络的转换;Narendranath采用BP神经网络来实现共振峰值的转换; Stylianou和Kain采用GMM法对谱包络参数进行建模,克服了矢量量化法在转换时引起的不持续现象;Iwahashi提出了采用说话人语音插值的措施来实现谱包络参数的转换;Valbret提出采用线性多变量回归法(LMR, Linear Multivariate Regression)和动态频率弯折(DFW, Dyn

14、amic Frequency Wraping )法进行谱包络的转换;Stylianou提出的GMM法虽然可以克服矢量量化法引起的不持续问题,得到较好的音质,但是会浮现共振峰过平滑的问题,对此Toda提出采用DFW法和GMM法相结合的措施;Lee将语音的LPC倒谱分解为时间变化(time-variant)部分和时间不变(time-invariant)部分,对时间变化部分进行转换;Duxans对GMM频谱包络转换法进行扩展,采用与音素有关的HMM技术进行谱包络转换,以此来实现语音动态特性的转换;Rentzos采用HMM对共振峰的频谱特性进行建模转换;Tamura在基于HMM的语音合成系统中采用ML

15、LR(Maximum likelihood linear regression)技术合成出多样语音;Seneff通过估计频谱包络的方式,将语音信号解卷积,得到语音信号的鼓励,这一措施避免了提取基频的问题;Kuwabara采用分析-合成的措施进行语音转换,通过线性预测解卷积算法将语音信号分解为嗓音源信号和声道传播函数,通过求解声道传播函数的零点得到共振峰的位置,同步采用线性预测的残差信号作为鼓励来合成语音;Childers采用基于固定长度帧的非基音同步的措施和信号有关的措施来进行分析,并采用了脉冲信号三角波信号Fant嗓音源信号LF微分声门波信号以及DEGG信号作为鼓励源,运用线性频谱搬移和分析

16、合成的措施,进行男女音之间的转换,获得了较好的效果。 国内的研究状况:初敏等人采用TD-PSOLA措施进行男女语音转换研究:基音周期的变换采用TD-PSOLA法来实现,而声道响应特性的转换则通过采样的措施来实现;王聪修对噪音源特性进行研究:基于嗓音源模型进行韵律转换,谱包络转换采用线性和非线性频谱搬移的措施实现实现男女语音的转换。1.3语音的特性描述1.3.1语音的产生机理语音就是人类说话的声音,是语言信息的体现形式。人的发音器官(肺、气管、喉、咽、鼻、口)共同形成一条形状复杂的管道,喉的部分称为声门,从声门到嘴唇的呼气通道称为声道(Vocal Tract),声道形状的不断变化发出不同的声音。

17、图1-1 “中央革命根据地”(16KHZ抽样、16bit量化)波形图现将语音的声学参数简介如下:音色:也叫音质,是一种声音区别于另一种声音的基本特性。音长:声音的长短,取决于发声时间的长短。音调:声音的高下,取决于声波的频率。音强:声音的强弱,由声波的振动幅度决定。音节(syllable):说话时一次发出的、具有一种响亮中心、并被明显感觉到的语音片段叫做音节。音素(phoneme):一种音素或者几种音素构成一种音节,它是语音发声的最小单位,目前诸多语音转换的研究都是基于音素的研究。元音(vowel):元音的一种重要特性是共振峰(formant)。共振峰:当元音鼓励进入声道时会引起共振特性,产生

18、一组共振频率简称共振峰。语音一般由三到五个共振峰表达(如图1-2)。辅音(consonant):辅音只出目前音节的前端或后端,它们的时长和能量与元音相比都很小,发辅音时声带与否振动引起浊音和清音的区别。浊音(voice):当气流通过声门时,如果声带的张力刚好使声带产生较低频率的张弛振荡,形成准周期的空气脉冲,那么这些空气脉冲鼓励声道就会产生浊音(如图1-3)。清音(unvoice):如果声道中某处面积很小,气流高速冲过此处时产生的湍流就是清音(如图1-4)。基音频率:浊音的声带振动基本频率,一般用表达,的变化轨迹称为声调轨迹,反映韵律特性。一般状况下,平均基频随着年龄的增长而减少,女音的平均基

19、频要比男音的平均基频高。基频的分布范畴反映发音人的声带振动频率的可调限度,男音的基频范畴大概为60200HZ,女音和小朋友的基频范畴大概为200450HZ。图1-2 语音谱包络的共振峰特性图1-3浊音(voice)波形图图1-4清音(unvoice)波形图有关各声学参数对语音的个性奉献大小的问题,Matsumoto研究得出:基音频率均值奉献最大,另一方面是共振峰频率,然后是基音频率的波动和声源频谱倾斜;Takagi研究得出:共振峰频率对说话人个性奉献最大,基音频率和共振峰带宽次之;Furui研究得出:由倒谱系数得到的长时平均谱包络对语音的个性特性奉献最大,特别是2.53.5KHZ频率范畴的谱包

20、络,平均基音频率为另一方面;Nakatsui觉得基音频率比声道共振特性对语音的个性奉献大;Itoh等觉得频谱包络对语音的个性特性影响最大,另一方面是基音频率和它们的时间轮廓构造。虽然学者们的观点各不相似,但可以肯定,无论哪个声学参数都无法涉及所有的语音个性信息,语音的个性特性是许多声学参数共同作用的成果。1.3.2语音的数学模型根据发音器官和语音产生机理的分析,语音的数学模型可以用鼓励模型、声道模型和辐射模型三个模型串联表达。图1-5给出语音发声的数学模型,其中是鼓励信号,浊音时是声门脉冲,清音时为随机噪声;是声道传播函数,既可用声管模型描述也可用共振峰模型来描述,实际应用中我们常常将其看作全

21、极点模型,其中H(z)的极点相应于共振峰的位置。 (1-1)则是辐射模型函数,一般用一阶高通的形式表达: (1-2)其中为语音的自有关函数,对于浊音,对于清音该值很小。周期脉冲发生器基音频率F0声门脉冲模型G(z)随机噪声发生器声道模型H(z)辐射模型R(z)AvAu鼓励模型声道模型辐射模型图1-5 语音发声的数学模型1.4语音转换的评价措施 语音转换性能评估也是语音转换的重要构成部分。最后合成的语音的评价指标重要有可懂度、自然度和清晰度等,单纯用一种评估措施很难完全评估语音的质量。一般来说从主观和客观两个方面对转换后的语音进行评价。1.4.1客观评价措施语音转换的客观评价措施一般是建立在语音

22、幅度谱的具体数值上进行的,通过数学计算成果得出。一般从频谱失真度、信噪比、说话人辨识三方面对语音进行客观评价。下面简朴简介这三种评价原则。1、频谱失真度:所谓频谱失真测度(SD: Spectral Distortion)是指采用与源语音、转换语音、目的语音间的频谱失真度SD有关的措施来评估语音,是语音转换领域广泛采用的客观评价措施: (1-3)式中用表达转换后的语音频谱参数,用表达目的语音的频谱参数,表达用来测试的语音帧的数目。也可以使用相对的频谱失真测度表达: (1-4)式中、分别表达目的语音、转换后的语音和源语音的频谱包络,值越故事明转换后的语音越接近于目的语音。2、信噪比:噪音比(SNR

23、)是语音编码和语音增强中最常用的客观评价措施,也可以借用到语音转换的客观性能测评中。 (1-5)式(1-5)中表达转换后语音矢量,表达目的语音矢量,SNR值越大表达转换后的语音效果越好。3、说话人辨识:说话人辨识也可以用来对语音转换效果进行评估,其重要思想是:将转换后的语音作为说话人辨认系统的输入,以拟定目的说话人辨识的似然性,然后用目的说话人和源说话人的对数似然比作为说话人决策的置信度测量。1.4.2主观评价措施主观评价措施是根据人的主观听觉按照一定评价原则给出被测试语音的判断成果得一种措施,重要有ABX测试和MOS分测试:1、ABX测试:这是应用比较多的一种措施。测试中的X表达语音转换系统

24、转换后的语音,A和B分别表达源说话人的语音和目的说话人的语音。测试时,通过人的主观判断转换后的语音X是像源说话人的语音A,还是像目的说话人的语音B。ABX的测试可以表达为: (1-6)其中表达第个测试人员对第个语句的打分状况,的取值为1或者0。2、MOS分测试:MOS分评价措施是指参与评价的人从语音的可懂度、自然度和清晰度等角度出发,给出综合衡量语音的分数。将MOS分评分原则用于语音转换系统时评分原则分为从5分到1分共五个级别,5分表达转换的语音效果最佳,最能逼近目的说话人的语音,1分则表达转换的语音效果最差。表1-1 MOS判分原则得分质量评价失真限度5优察觉不到失真4良稍微能察觉到失真但无

25、不舒服感3中能察觉到失真且有不舒服感2差有不舒服感但能忍受1劣很不舒服且不能忍受 (1-7)其中是总共的票数,是得某种分的票数,是其中的某个分值,其值为。1.5本文的研究内容和组织构造语音转换是语音解决领域一种比较新的研究课题,本文一方面对语音的两种推演参数LPC倒谱和LSF参数的转换性能进行比较;接着在既有的基音周期检测的基本上,提出一种新的基于Hilbert变换的残差倒谱基音周期检测措施;另一方面对既有的CG-GMM措施进行改善,通过引入后验概率门限将GMM和VQ较好地结合起来,既避免了VQ的非持续性又减轻了CG-GMM的过平滑;然后对谱鼓励转换措施进行改善:以MMSE准则为基本,将预测目

26、的鼓励和残差波形转换两种措施结合起来,获取比较好的鼓励信号;最后从主、客观两个方面对改善后的性能进行评价。本文的内容安排如下:第一章:绪论,一方面简朴简介了语音转换的研究意义与研究现状;另一方面简要描述语音产生机理和数学模型;最后给出语音转换的主、客观评价原则。第二章:语音转换技术研究,一方面给出语音转换的系统框架,另一方面研究了转换中的各个核心部分:模型的选用、语音的预解决、参数提取波及到的线性预测分析、训练函数、语音合成;最后对LPC倒谱和LSF参数的转换性能进行比较。第三章:基音检测措施研究,一方面对基音周期的转换措施-均值法和高斯转换法进行比较;另一方面在既有的基音周期检测措施的基本上

27、提出了一种新的基Hilbert变换的残差倒谱基音检测措施,该措施可以提高基音检测的精确性。第四章:一种改善的CG-GMM和谱鼓励联合转换研究,一方面对既有的CG-GMM措施进行改善,通过引入后验概率门限将GMM和VQ较好的结合起来,既避免了VQ的非持续性又减轻了CG-GMM的过平滑; 然后对谱鼓励转换措施进行改善:以MMSE准则为基本,引入一种权重优化因子,将预测目的鼓励和残差波形转换这两种结合起来,获取比较好的鼓励信号。第五章:实验成果及性能研究,本章给出课题的实验平台、实验框图和实验成果,并从主、客观两个方面对转换后的语音进行评价。仿真成果表白,本文提出的改善措施无论在频谱包络方面还是谱鼓

28、励方面都好于老式的CG-GMM算法。第六章:总结与展望。第二章 语音转换技术研究2.1语音转换框架1.语音的分析-合成框架一般来说整个语音的分析-合成系统框架如图2-1所示:一方面对语音进行参数提取;然后对语音的基音、声门波形状、共振峰、增益控制各个部分进行解决;最后合成语音。语音信号参数提取清浊音判断变化波形变化形状变化参数修正波形增长/减少基音抖动合成语音提取浊音增益扰动增益包络基音波形基音周期增益控制声门波形状共 振 峰基音部分增长/减少增长/减少分析阶段修正阶段合成阶段图2-1语音的分析-合成框架下面我们给出具体的语音转换框图即图2-2。一般来说语音转换分为两个阶段:训练阶段和转换阶段

29、。训练阶段:一方面提取源、目的说话人的特性参数;另一方面对这两组特性参数进行对齐;最后训练对齐后的特性参数,得到源、目的说话人之间的转换规则。转换阶段:提取源语音的特性参数,用训练阶段得到的转换规则进行转换,最后合成语音。源说话人语音语音转换规则特性参数提取训练目的说话人语音特性参数提取对齐源语音特性参数提取语音转换语音合成转 换 阶 段训练阶段图2-2 语音的转换框图从图2-2中可以看出,语音转换的核心部分涉及:语音模型的选用、语音特性参数的提取、语音训练措施的选择、语音合成。接下来分别简介这几种部分。2.2语音转换的系统模型语音模型的选用在语音转换中起着核心作用,一种好的模型的原则是最可以

30、描述语音的个性特性,固然模型的选择也受诸多因素的影响,例如模型复杂度、计算量大小、训练数据的多少,因此选择一种模型要综合考虑各个因素。声源-滤波模型:语音转换的研究大都基于声源-滤波模型,具体来说,声源-滤波模型重要有LPC分析-合成模型和基于倒谱包络的语音模型。LPC分析-合成模型是应用较多的语音模型,该模型基于线性预测分析原理,符合语音的产生原理,它将语音有效地分解为谱包络和鼓励两个部分,一般来说,谱包络部分由LPC系数及其推演参数描述,鼓励部分由LPC残差描述,这样谱包络的转换可以通过对LPC及其推演参数来实现,韵律转换也可以通过对LPC残差的转换来实现,并且该模型简朴、以便、计算量小。

31、正弦模型:该模型将语音信号看作是由一系列正弦波叠加而成: (2-1)其中是角频率,是相位,是幅值,是正弦波的个数。在实际应用中一般采用谐波+噪声模型(HNM),这是由于谐波+噪声模型能更精确地反映语音波形信息,更容易实现语音音色转换的合成输出。某些研究表白该措施比LPC措施得到更多的谱包络细节,但是该模型比较复杂,并且计算量比较大。STRAIGHT模型:STRAIGHT(Speech Transformation and Representation using Adaptive Interpolation of weighted spectrum)模型是近年来提出的一种新模型,运用该模型进行

32、语音转换有三大长处:(1)在时-频域运用音节自适应重建语音信号;(2)可以可靠且精确地提取参数,在提取参数时一般采用1ms间隔;(3)运用人为的相位全通滤波器来提取源语音的特性参数。同样,该模型比较复杂、计算量大、对语音的建模规定也比较严格。本文采用简朴、以便并且计算量小的LPC分析-合成模型,该模型基于线性预测分析,有关线性预测分析在2.4节简介。由于语音是时变的持续信号,因此在对语音进行分析研究前一方面要对语音进行有关的预解决,接下来简介语音的预解决。2.3语音预解决虽然语音信号具有时变特性,但是在一种短时间范畴内(一般觉得1030ms),其特性基本保持不变,因此可以将语音看作是一种准稳态

33、过程,即语音信号具有短时平稳性。因此任何语音信号的分析和解决都必须建立在“短时”的基本上,即要进行“短时分析”40。图2-3是语音短时分析的前期解决部分,该部分涉及语音的放大滤波、采样量化、预加重和分帧加窗。声音源放大、滤波A/D预加重分帧、加窗端点检测特性提取图2-3 语音预解决过程预解决:语音信号的平均功率谱受声门鼓励和口鼻辐射的影响,高品位在800HZ以上按6dB/倍频程跌落,运用预解决技术可以提高高频分量,使信号的频谱变得平坦,保持在整个频带中能用同样的信噪比求频谱,便于频谱分析或声道参数分析。预解决一般用一阶的数字滤波器表达: ,在本文中我们取。 分帧:一般每秒的帧数约为33100帧

34、,本文所用的语音均采用16KHZ采样、16bit量化,选用的语音帧长为320个采样点(20ms),为了使帧与帧之间平滑过渡,保持持续性,我们采用160个采样点作为帧移实现语音的交叠分段。加窗:在时域,一般是用一种长度有限的窗函数截取一段语音信号来进行分析,并让这个窗滑动以便分析任一时刻附近的信号。一种好的窗函数的原则是:窗口边沿两端不应急剧变化、减小截断效应、频域要有较宽的带宽及较小的边带最大值。在进行语音分析时,用的比较多的窗函数是矩形窗、汉宁(Hanning)窗和汉明(Hamming)窗。分别简介如下:(为窗长):矩形窗: (2-2)汉宁窗: (2-3)也可以写为: (2-4)汉明窗: (

35、2-5)也可以写为: (2-6)表2-1几种窗函数的性能比较窗函数主瓣宽度旁瓣峰值衰减(dB)阻带最小衰减(dB)矩形窗4/N1321汉宁窗8/N3144汉明窗8/N4153本文的实验均基于移动的汉明窗(Hamming)来实现语音的分帧加窗。端点检测:端点检测的目的是拟定一段语音的起始点和终结点。有效的端点检测不仅能使解决时间减到至少(分析帧数减少),并且能排除无声段的噪声干扰,提高解决质量。对于前端本文采用双门限(过零率和短时能量)检测算法替代老式的单门限(过零率)检测法;对于后端我们用短时能量进行解决,一般只要短时平均幅度值减少到该音节最大短时平均幅度的1/16左右就可以觉得该音节结束。图

36、2-4 端点检测前后语音波形图对比2.4线性预测分析2.4.1线性预测分析原理线性预测分析是用过去的个样点值来预测目前或将来的样点值: (2-7)则预测误差为: (2-8)由1.3.2节简介的全极点模型可知,语音抽样信号和鼓励信号之间的关系可以用下列的差分方程来表达: (2-9)从公式(2-9)中可以看出,语音样点间存在有关性,因此可以用过去的样点值来预测将来得样点值。在模型参数估计过程中,把下面的系统称为线性预测器: (2-10)式中称为线性预测系数。这样,阶线性预测器的系统函数具有如下形式: (2-11) (2-12)公式(2-12)中,称为逆滤波器。一般在最小均方误差准则(MMSE)下求

37、预测系数的最佳估值。有关的MMSE准则的内容将在4.1.2节中简介。在求解线性预测方程时,的选择是非常重要的,应当从频谱估计精度、计算量、存储量等多方面考虑。选用的原则是一方面保证有足够的极点来模拟声道特性的谐振构造。图2-5预测误差(纵轴)和阶数(横轴)的关系图从图2-5中可以看出:随着的增长预测误差会有所下降,但是到一定的限度基本趋于平缓。本文取预测阶数。2.4.2两种推演参数的比较1)LPC倒谱LPC倒谱一般通过信号的傅立叶变换,取模的对数,再求反傅立叶变换得到,如图2-9所示:信号DFT取对数IDFT图2-6 LPC倒谱的定义 (2-13)其中为倒谱系数,为LPC系数。 (2-14)公

38、式(2-13)给出倒谱系数和LPC系数的关系式,也可以直接运用公式(2-14)从预测系数中求倒谱系数。2)线谱对LSF参数线谱对参数是线性预测参数的另一种表达形式,一方面它是频域参数,因此和信号的谱包络有更紧密的联系;另一方面它具有良好的量化特性和内插特性,使 LSF在整个频率轴上的稀疏直接相应频谱的峰与谷;最后使用LSF产生的误差只会影响到局部的谱构造,不会扩散到整个频谱上,使得相似质量的合成语音所需的数码率得以减少。图2-7 LPC参数转换的基音频率图(女转男)图2-8 LPC倒谱转换的基音频率图(女转男)图2-9LSF参数转换的基音频率图(女转男)图2-7到2-9为女声转换成男声的基音频

39、率图:实线为源语音的基音频率,虚线为目的语音的基音频率,夹点的虚线为转换后的语音的基音频率。从这几种图中可以看出:用LPC措施转换的效果最差,另一方面是LPC倒谱措施,效果最佳的是线谱对转换,并且LPC倒谱在低频处的谱包络不精确,得到的鼓励谱的包络不够平坦,合成的语音质量也不高。本文采用有序有界、抗干扰、误差相对独立、保证合成滤波器稳定量化、与频谱包络的共振峰和带宽较好地相应的LSF参数进行语音转换。图2-10是用LSF参数得到的频谱包络图。图2-13 FFT频谱图和LSF频谱包络2.5频谱包络转换在语音转换中,频谱包络的转换是一种重要方面,语音频谱承载了说话人特性的重要信息,语音频谱的转换是

40、目前语音转换技术的首要内容。一般状况下,在对源说话人和目的说话人的语音特性参数训练之前,一方面需要对源说话人和目的说话人的特性矢量用DTW(动态时间规整)进行时间对齐;接着采用某种训练措施得到源、目的说话人的转换函数;最后对源说话人的频谱进行转换。频谱包络转换的重要措施有矢量量化法(VQ)、高斯混合模型法(GMM)、隐马尔可夫模型法(HMM)、人工神经网络(ANN)、说话人插值法、线性多变量回归法(LMR)和动态频率规整(DFW)等。下面重要简介VQ和GMM措施。2.5.1矢量码本映射(VQ)矢量码本映射措施(VQ)是语音转换中初期采用的一种措施,其重要思想为:将矢量量化法非特定人的语音辨认应

41、用于说话人自适应。Abe较早采用基于矢量量化的码书映射措施进行频谱包络的转换,Arslan也采用这种措施。其实现过程如下:一方面对源说话人和目的说话人的语音频谱参数空间进行量化,使源语音和目的语音的码向量一一相应,分别得到个源语音的码向量和个目的语音的码向量;然后通过训练得到由每一种源说话人语音码向量到个目的说话人的语音码向量的映射码书,为的矩阵。映射码书的建立过程如下:(1)由源和目的说话人产生学习单词集,然后对所有的单词逐帧进行量化。(2)用动态时间规整技术(DTW)对两个说话人的相似的单词向量进行对齐。(3)将两说话人之间的向量相应关系累积成柱状图,用柱状图作为加权系数,映射码书就是目的

42、语音向量线性合成时的加权系数。在转换阶段,先将源语音的谱包络系数量化为源语音向量空间的个码向量,然后用训练阶段得到的映射码本对源语音的个码向量进行,则转换后的码向量为: (2-15)其中,为映射码书中的元素,满足公式(2-16) (2-16) 无论是模糊矢量量化技术还是分量矢量量化技术,或者是之后Arslan提出的基于音素码本和过滤器思想的转换算法,虽然都较好地改善了转换后的信号的持续语音帧之间的过渡性能,但是仍旧存在频谱不持续的现象,其因素在于-矢量量化建立的映射码本始终是基于语音特性参数的“硬分类”,一类特性参数要么所有分到类,要么所有分到类,这样割舍了各类间的联系性,导致转换后的语音频谱

43、特性参数局限在一种离散的矢量集中,合成出来的语音质量严重下降,系统性能不好。2.5.2高斯混合模型(GMM)由2.5.1节可知,基于VQ的语音转换由于采用了 “硬分类”(每类数据仅仅相应一种转换规则),导致转换后的频谱包络不持续,合成的语音质量下降。虽然之后的研究对该措施进行了改善,但是仍然无法解决参数离散性的问题。Stylianou提出的GMM法虽然可以克服矢量量化法引起的不持续问题,得到较好的音质,但是会浮现共振峰过平滑的问题,这是由于GMM措施基于“软分类”,每一种特性参数以不同的概率从属于多种类,这样就可以在相似的分类数下运用概率加权组合成远不小于类别数的转换规则。高斯混合模型(Gau

44、ssian Mixture Model,简写为GMM)可以看作是一种状态数为1的持续分布马尔可夫模型,它具有迅速、精确且用很少特性参数就能得到较好的转换效果的长处。一种阶混合高斯模型的概率密度函数是由个高斯概率密度函数加权求和得到: (2-17)其中为维随机矢量,为混合权重,且满足,为每个子分布的维的联合高斯概率分布,表达如下: (2-18)式(2-18)中是均值矢量,是协方差矩阵,表达矩阵的转置。一般状况下完整的混合高斯模型参数由均值向量、协方差矩阵和混合权重构成,这样,一种GMM模型的参数可以表达到如下的三元式: (2-19)用GMM对由个维观测数据矢量构成的序列进行建模之后, GMM模型

45、训练数据常使用最大似然估计(4.1.2节)求一组最优,似然函数表达为: (2-20) 为计算以便,似然函数一般采用对数形式,即: (2-21)根据最大似然估计准则,最优的模型参数可以表达为: (2-22)接下来用EM(4.1.2节)迭代算法求解这个非线性函数的优化问题。具体的实现过程为: E-Step: (2-23)M-Step: (2-24) (2-25) (2-26)一般状况下我们采用联合训练的措施对DTW(动态时间规整)对齐后的源、目的说话人的特性参数进行训练,假设、分别表达规整后的源说话人、目的说话人特性参数序列, 是特性参数矢量的数目,和均是维的列矢量,将这两个矢量进行拼接,生成了一

46、种新的扩展矢量: ,然后对新的特性参数空间进行概率密度建模,即对和进行联合概率密度建模,设概率密度函数为: (2-27)其中表达GMM模型参数集,是第个高斯分量的加权系数,是均值向量,是协方差矩阵。由于是由和拼接而成,因此的GMM模型各分量的均值向量和协方差矩阵可作如下分解: (2-28)其中、是、的均值向量,是的自协方差矩阵,是与的互协方差矩阵,是与的互协方差矩阵,是的自协方差矩阵。这样在源说话人特性参数已知的状况下,运用最小均方误差估计准则(MMSE)(4.1.2节)对相应的目的说话人特性参数进行估计,转换函数为: (2-29)公式(2-29)中,表达求数学盼望,为后验概率,表征特性参数属

47、于第个高斯分量的概率,其值为: (2-30)2.6语音合成语音合成也是语音转换过程中的一种重要内容。在得到源、目的说话人之间的转换规则后,我们就可以对输入的源语音进行转换合成。既有的语音合成措施40从技术上来说可分为波形合成法、参数合成法和规则合成法。波形合成法分两种,一种是波形编码合成,即直接把要合成的语音的发声波形进行存储或者波形压缩后存储,合成时再解码组合出来;另一种是波形编译合成,即把波形编译技术应用到语音合成中,波形合成法是一种相对简朴的技术,一般只能合成有限词汇的语音段;参数合成法也称为分析合成法,是一种较复杂的措施,一般分为发音器官参数合成和声道模型参数合成,发音器官参数合成是直

48、接模拟人的发声过程进行语音合成,声道模型参数合成是基于声道腔的声道特性来产生的,其中比较出名的是Klatt的共振峰合成和基于LPC/LSP等声学参数的合成;规则合成法是通过语音学规则产生语音,给出待合成的字母或者文字后,合成系统运用规则自动将它们转换成持续的语音声波,其中比较有代表性的是基音同步叠加技术(PSOLA),该技术既能保持所发音的重要音段特性,又能在拼接时灵活调节其基频、时长和能量等超音段特性,其核心思想是:直接对存取于音库中的语音运用PSOLA算法进行拼接,从而合成完整的语音。基音同步叠加是一种高档的语音合成措施,合成的质量能达到很高的音质。LPC合成技术虽然简朴、直观,但它本质上

49、是一种录音+重放方式的技术,对于整个持续语流的合成效果不是较好。本文将PSOLA技术运用到LPC合成中提高语音质量。2.7本章小结本章一方面给出语音转换的系统框架;接着研究了转换中的各个核心部分:模型的选用、语音的预解决、参数提取波及到的线性预测分析、训练函数、语音合成;最后对LPC倒谱和线谱对LSF这两种参数的转换性能进行比较。第三章 基音周期检测措施的研究 一般来说,语音转换分两个部分:频谱转换和韵律转换。其中频谱转换涉及谱包络的转换和谱鼓励的转换,韵律转换重要是对基音周期的转换,而进行基音周期转换的前提是可以运用某种检测措施提取出精确的基音周期。下面一方面研究老式的两种基音周期转换措施,

50、并给出仿真成果;然后对基音周期检测进行研究,具体内容如下:3.1基于基音周期转换的语音转换措施研究语音的韵律特性是语音的一种重要信息。在进行语音转换时不仅要对频谱包络进行转换,还要对语音的韵律特性进行转换。语音的韵律特性重要体现为音高、音长、音强等,其所相应的参数重要有基音周期、时长和能量等,因此,语音韵律特性的转换重要是对语音的基音周期、时长和能量的转换。时长和能量的转换一般采用简朴的均值法进行解决,这样在韵律转换中,基音周期的转换占据重要的地位,也始终是学者研究的重点之一。基音周期转换的措施32有诸多,大体分为时域和频域两大类。采用时域转换措施容易引起频谱和相位的失真,采用频域转换措施可以

51、将频谱分为频谱包络和鼓励谱两部分,其中频谱包络反映声道特性,鼓励谱反映声源特性或鼓励信号特性。基音周期转换就是保持频谱包络不变,转换换鼓励谱部分的基音周期。一、一方面简介两种常用的基音周期转换措施。1、均值转换法在进行基音周期转换时,一方面求出源语音的基音周期平均值和目的语音基音周期平均值;然后用目的语音的基音周期均值与源语音的基音周期均值的比值作为平均基音周期转换率,即;最后将源语音基音周期根据进行转换,得到转换后的基音周期: (3-1)从公式(3-1)中可以看出,由均值法得到的转换后的语音的基音周期变化范畴是源语音的基音周期变化范畴的倍,但是这种转换措施没有对韵律特性进行具体地提取和转换,

52、只是简朴的对基音周期做线性转换,并不能充足捕获说话人的韵律特性信息,导致转换后的语音质量不高。2、高斯模型转换法该措施是在基音服从单高斯分布这个前提下进行的。一方面估计出源、目的语音的基音频率;接着求出源、目的基音频率的均值和方差;最后用公式(3-2)对源语音的基音频率进行转换。 (3-2)其中 (3-3) (3-4)公式(3-3)、(3-4)中,为目的语音的基音频率的方差和均值,为源语音的基音频率方差和均值。综合以上三式可以得出源语音和目的语音的基音频率之间的关系为: (3-5)一般状况下我们用对数的形式表达: (3-6)二、基音周期转换的仿真成果本节运用上面简介的均值法和高斯模型法对语音“

53、中央革命根据地”进行基音周期转换,从图3-3和3-4中可以看出:运用高斯法和均值法进行基音周期转换的效果都不是很抱负,因素是这两种措施都割舍了频谱包络和基音频率之间的联系。本文采用类似于第四章中CG-GMM的措施(考虑频谱包络和基音周期的关联性)进行基音周期转换,第五章的仿真成果表白,本文提出的措施有明显的改善。图3-1 源语音基音频率图图3-2 目的语音基音频率图图3-3 均值转换法图3-4 高斯模型转换法进行基音周期转换的前提是可以高效、精确地提取出源、目的说话人的基音周期,接下来的3.3节简介了几种老式的基音周期检测措施,并在既有措施的基本上提出了一种新的基于Hilbert变换的残差倒谱

54、基音检测措施。3.2老式的基音周期估计措施研究基音周期是指声带振动频率的倒数(),它是语音信号中描述语音鼓励源的一种重要参数。由于人声道的易变性,基音周期因人而异,范畴很广,加之也许受到音调的影响,因此基音周期的检测是一件比较困难的事情,重要困难在于:声门鼓励信号并不是一种完全的周期信号;声道的共振峰会影响鼓励的谐波构造;语音信号自身是准周期的,容易受到噪声等的影响。3.2.1自有关法(ACF)语音信号通过加窗、短时解决后,其短时自有关函数定义为: (3-7)其中是预解决后的短时语音信号,是短时帧长。短时自有关函数的性质:1)如果是周期的,自有关函数就是同周期的周期函数。2)是偶函数,即=。3

55、)当=0时,自有关函数具有最大值,即。由以上分析可知:浊音信号的自有关函数在基音周期的整数倍上浮现峰值,而清音的自有关函数没有明显的峰值浮现,因此检查与否有峰值即可判断是清音还是浊音。但是运用自有关时需要注意如下几种问题:(1)运用自有关法估计基音周期时,窗长至少应不小于两个基音周期才干获得比较好的效果,一般取27个;(2)在某些浊音中或者在清浊音的过渡段,第一共振峰频率也许低于或者等于基音频率,此时,如果其幅度很高,就会跟基音频率的峰值混淆,引起检测误差;(3)会浮现半频、倍频等现象。可以通过如下几种途径对语音信号进行解决:第一、用一种带宽为60900HZ的带通滤波减少共振峰的影响,同步在低

56、频端克制50HZ的电源干扰;第二、对语音进行非线性解决后再求自有关,其中用的最多的是中心滤波。在进行基音周期估计时,有也许产生错误判决,使求得的基音周期轨迹偏离正常轨迹,产生“野点”,清除这些“野点”一般有三种途径:中值平滑、线性平滑和动态规划平滑。线性平滑是用滑动窗进行线性滤波解决;动态规划平滑的基本思想是寻找最低合计代价的途径,使最后合计的总代价最小;中值平滑是一种采用滑动窗的直方图记录解决措施,其基本原理是:设为输入信号,为中值滤波器的输出,窗长为,那么,处的输出值就是将窗的中心移到处时窗内输入样点的中值。(a) 未清除野点的基音走势图(b)中值平滑措施清除“野点”图3-5 ACF法估计

57、基音周期3.2.2平均幅度差函数法(AMDF/SMDF) (3-8)对于准周期性的浊音信号而言,在周期的各个整数倍上具有谷值特性,虽然不一定等于零,但也应当是最低的低谷,因此可以用公式(3-8)进行清浊音判断。由于AMDF减少了乘法运算,使计算量大大减少,因此得到诸多学者的青睐:例如对信号进行中心削波后再计算AMDF函数的(C-AMDF)措施、采用变长度AMDF函数(LV-AMDF)的措施、采用概率近似错误纠正技术进行线性加权(W-AMDF)的措施、采用LPC预测分析获得残差倒谱后的AMDF函数(LP-AMDF)的措施、幅度补偿AMDF措施等。其中: W-AMDF: (3-9) LV-AMDF

58、: (3-10)(a) SMDF/AMDF法估计基音周期(b) W-AMDF法估计基音周期图3-6 平均幅度差函数法估计基音周期从图3-6中可以看出,AMDF措施存在的缺陷是:随着的增长,式(3-8)中的和差项数逐级减少,导致AMDF的峰值幅度随的增长而逐级下降,带来检测的不精确;而W-AMDF运用线性加权的措施对幅度进行补偿,保持幅度不变,增长了预测的精确性。3.2.3倒谱法(CEP)倒谱法也是老式得基音周期估计措施之一,它运用语音信号的特性参数的倒谱来表征鼓励信号的基音周期。由语音的产生模型可知,语音信号由鼓励信号经声道响应滤波而成,即: (3-11)设、的倒谱分别为、,则有: (3-12)语音的倒谱分析就是求倒谱特性参数的过程,一种信号的倒谱定义为该信号频谱幅度自然对数的逆傅立叶变换。如图3-7所示:DFTLn | |IDFT图3-7 倒谱的定义图3-8 倒谱法估计基音周期近年来对倒谱的改善措施重要有:一是运用记录检测的思想,即对倒谱峰值做合适加权后,记录其中值作为检测阈值;二

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!