情感语音信号中共振峰参数的提取方法毕业论文

上传人:无*** 文档编号:80490413 上传时间:2022-04-25 格式:DOC 页数:49 大小:1.49MB
收藏 版权申诉 举报 下载
情感语音信号中共振峰参数的提取方法毕业论文_第1页
第1页 / 共49页
情感语音信号中共振峰参数的提取方法毕业论文_第2页
第2页 / 共49页
情感语音信号中共振峰参数的提取方法毕业论文_第3页
第3页 / 共49页
资源描述:

《情感语音信号中共振峰参数的提取方法毕业论文》由会员分享,可在线阅读,更多相关《情感语音信号中共振峰参数的提取方法毕业论文(49页珍藏版)》请在装配图网上搜索。

1、太原理工大学毕业设计(论文)任务书毕业设计(论文)题目:情感语音信号中共振峰参数的提取方法毕业设计(论文)要求及原始数据(资料): 要求:1:大量查阅关于共振峰提取技术的资料(通过Internet或图书馆)。2:分析总结各种共振峰的提取方法。3:用一种共振峰提取方法实现情感语音中共振峰的提取。4:写一篇论文并给出共振峰提取结果。原始数据:1:共振峰研究意义随着多模态人机交互技术的发展,新型人机交互模式的应用前景更加广阔。语音作 为一种自然有效的人机交互方式,成为当前的研究热点。语音信号不仅包含语音信息,还包含着说话人的情感信息。语音情感信息处理技术的研究对于提高计算机的智能化具有重要的现实意义

2、。语音情感信息处理技术作为一个重要的研究领域已经有很长时间的研究历史了,然而在传统语音信号处理中往往忽略了在语音信号中的情感因素。共振峰是反映声道谐振 第1页特性的重要特征,它代表了发音信息的最直接的来源,而且人在语音感知中利用了共振峰信息。所以共振峰是语音信号处理中非常重要的特征参数,已经广泛地用作语音识别的主要特征和语音编码传输的基本信息。人在语音感知中也利用了共振峰信息。所以共振峰已经广泛地用作语音识别的主要特征和语音编码的基本信息。语音的频率特性主要是由共振峰决定的,当声音沿声管传播时,其频谱形状就会随声管而改变。如果讲话者的发音中包含喜、怒、哀、乐等情感信息,那么讲话者的声道形状就会

3、发生不同的变化。共振峰作为情感特征信息的非韵律特征参数,我们研究提取它的方法对包含在语音信号中的情感信息分析和处理时及其有意义的。2:共振峰的几种提取方法(1)谱包络提取法:共振峰信息包含在语音频谱包络中, 因此共振峰参数提取的关键是估计自然语音频谱包络, 并认为谱包络中的最大值就是共振峰。(2)倒谱法提取共振峰:因为倒谱运用对数运算和二次变换将基音谐波和声道的频谱包络分离开来。 去除了激励引起的谐波波动, 所以可以更精确地得到共振峰参数。(3)LPC法提取共振峰:从线性预测导出的声道滤波器是频谱包络估计器的最新形式, 线性预测提供了一个优良的声道模型 (条件是语音不含噪声) 。(4)求根法提

4、取共振峰:找出多项式复根的过程通常采用牛顿拉夫逊 (Newton-Raphson)算法。(5)LPC倒谱法提取共振峰:语音信号的倒谱可以通过对信号做傅里叶变换, 取模的对数, 再求反傅里叶变换得到。 第2页毕业设计(论文)主要内容:1:介绍情感语音信号共振峰提取的背景及研究意义,分析语音合成技术的国内外研究现状、应用领域。2.探索提取情感语音信号中共振峰参数所所遇到的问题困扰。(1)虚假峰值 (2)共振峰合并 (3)高音调语音3.分析掌握共振峰的多种提取方法,对多种共振峰提取方法进行比较和分析。(1)谱包络提取法(2)倒谱法提取共振峰(3)LPC法提取共振峰(4)求根法提取共振峰(5)LPC倒

5、谱法提取共振峰4.重点研究分析倒谱法提取语音信号共振峰,分析其优缺点并利用这种方法提取情感语音中的共振峰。学生应交出的设计文件(论文):1:开题报告2:中期检查3:毕业论文第3页主要参考文献(资料):1 胡航. 语音信号处理M. 哈尔滨: 哈尔滨工业大学出版社, 2000: 113-116.2 张刚, 张雪英, 马建芬. 语音处理与编码M. 北京, 兵器工业出版社, 2000.3 Rosalind W Picard. Affective computingJ, Minds and Machines, 1999, 9:443-447.4 Cowie R and Cornelius R. Desc

6、ribing the emotional stares that are expressed in SpeechJ, Human-Computer Studies, 2003, 40:5-3.5 D Ververidis and C Kotropoulos, Emotional speech recognition:Resources, features and methodsJ, Speech Communication, 2006, 48(9):1162-1181.6 Cowie, R.Douglas-Cowie, E.Savvidou, MeMahon, E.Sawey, M.Sehro

7、der, M.FEELTRACE:An Instrument for Recording Perceived Emotion in Real Time. In ISCA Workshop on Speech and Emotion, Belfast 2000.7 Cowie, R.Douglas-Cowie, E.Speakers and hearers are people:Reflections on Speech deterioration as a consequence of acquired deafness in Profound Deafness and Speech Comm

8、unication. London, 1995.8 R.Cowie,E.Douglas-Cowie, E.Automatic statistical analysis of the signal and prosodic signs of emotion in speech.In Proc. 4th Int. Conf. Spoken Language Processing.PhiladelPhia, PA, 1996:1989-1992.9 赵力, 蒋春辉, 邹采荣. 语音信号中的情感特征分析和识别的研究N. 电子学报, 2004, 4:606-609.10 付丽琴, 王玉宝, 王长江. 基

9、于多特征向量的语音情感识别J. 计算机科学, 2009, 36(6):231-134.专业班级 通信0902班 学生 赵智越 要求设计(论文)工作起止日期 2013年2月25日2013年6月16日 指导教师签字 日期 教研室主任审查签字 日期 系主任批准签字 日期 第4页情感语音信号中共振峰参数的提取方法摘 要语音情感识别是新型人机交互技术的研究热点之一,在人工智能方面有着较广泛的应用前景。共振峰频率是反映声道谐振特性的重要特征,它代表了发音信息的最直接的来源。所以研究情感语音信号中共振峰参数是有很大意义的。基于共振峰参数在情感语音信号中的重要性,本文主要研究了情感语音信号中共振峰参数的提取方

10、法。提取共振峰的常用方法包括:谱包络提取法、倒谱法和LPC法。由于倒谱法根据对数功率谱的逆傅立叶变换,能够分离频谱包络和细微结构,很精确地得到共振峰信息,所以本文重点研究倒谱法提取共振峰。本文通过MATLAB软件利用倒谱法实现了对高兴、生气、中立三种情感状态的共振峰参数的提取。分析提取结果,得到了下面的一些结论:相对于中立发音而言,高兴和生气的第一共振峰频率相对升高,从人的发音特点来看,人们在表达高兴和生气时,嘴比平静发音时张得更大,因此会出现这样的结果。所以说,可以用共振峰作为区分不同情感语音的手段。关键词:语音情感识别;共振峰参数;共振峰提取方法;倒谱法Extraction method

11、of emotional speech signal of the formant parametersAbstractSpeech emotion recognition is one of the hot research of new human-computer interaction technology, which has a wide application prospect in artificial intelligence. Formant frequency is an important characteristic of reflecting the resonan

12、t characteristics of channel, it represents the pronunciation of the most direct source of information. So the research of emotional speech signal of the formant parameters is of great significance.Based on the importance of formant parameter in the emotional speech signals, this paper mainly studie

13、d the extraction method of emotional speech signal of the formant parameters. Several main methods of extraction of formant are: spectral envelope extraction, cepstrum method and LPC method. Since cepstrum based on the number of inverse Fourier transform power spectrum, it can separate spectral enve

14、lope and the fine structure and get very precise information on the formant, so this paper focuses on research cepstrum formant extraction.This paper use MATLAB software cepstrum emotional state to achieve happy, angry and neutral three formant parameter extraction. Analysis to extract a result, I g

15、et some of the following conclusions: Relative to the neutral pronunciation, the happy and angry the first formant frequency is relatively increased. Pronunciation features from the human point of view, people are happy and angry expression, mouth to pronounce than when Zhang was more calm, so there

16、 will be such an outcome. So, you can use the formant speech as a means to distinguish between different emotions.Key Words: Speech Emotion Recognition; Formant parameters; Formant extraction method; CepstrumI目录摘 要IAbstractII第1章 绪论11.1 选题意义11.2 情感语音识别技术的国内外发展现状11.2.1 国际情感语音识别发展现状11.2.2 国内情感语音识别发展现状2

17、1.3 本文的主要研究内容及结构安排31.3.1 本文的主要研究内容31.3.2 本文的结构安排3第2章 情感的分类与语音情感识别52.1 情感的分类52.2 情感语音数据库52.3 语音情感识别系统6第3章 共振峰的基本概念73.1 共振峰参数的概念及产生原理73.2 共振峰参数的研究意义73.3 提取共振峰参数所遇到的问题7第4章 共振峰的提取方法及分析94.1 谱包络提取法94.2 倒谱法提取共振峰104.3 LPC法提取共振峰104.4 求根法提取共振峰114.5 LPC倒谱法提取共振峰124.6 几种提取方法分析比较134.7 同类文章提取方法比较14第5章 倒谱法提取共振峰的实现1

18、65.1 倒谱的定义165.2 倒谱法提取共振峰原理175.3 倒谱法提取情感语音共振峰具体实现过程175.4 共振峰提取结果及结论分析195.4.1 情感语音原始波形195.4.2 情感语音共振峰提取结果205.4.3 结论分析22第6章 总结与展望236.1 全文总结236.2 展望23参考文献24致 谢26外文原文27中文翻译36III第1章 绪论1.1 选题意义随着多模态人机交互技术的发展,新型人机交互模式的应用前景更加广阔。语音作为一种自然有效的人机交互方式,成为当前的研究热点。语音信号不仅包含语音信息,还包含着说话人的情感信息。语音情感信息处理技术的研究对于提高计算机的智能化具有重

19、要的现实意义。语音信号处理技术作为一个重要的研究领域有着很长时间的研究历史,然而在传统语音信号处理中往往忽略了在语音信号中的情感因素。语音情感识别是语音识别的一个重要的分支,而语音识别则是数字信号处理技术与语音学的交叉学科,它和心理学、计算机科学、认知科学、语言学、人工智能和模式识别等学科紧密联系。近年来,人们研究发现情感所引起的语音信号变化对语音识别、语音合成、说话人确认等方面有较大影响,所以语音情感处理的研究逐步提高了人们的重视。目前有很多研究者在致力于研究并处理语音情感信息有效方法以及情感对语音的影响。汉语普通话发音中情感特征信息的特征参数主要包括发音持续时间、振幅能量、基音频率和共振峰

20、频率等。共振峰频率简称共振峰,它与声道的形状和大小有关,一种形状对应着一套共振峰。共振峰是反映声道谐振特性的重要特征,它代表了发音信息的最直接的来源,而且人在语音感知中利用了共振峰信息。所以共振峰是语音信号处理中非常重要的特征参数,人在语音感知中也利用了共振峰信息,已经广泛地用作语音识别的主要特征和语音编码传输的基本信息。语音的频率特性主要是由共振峰决定的,当声音沿声管传播时,其频谱形状就会随声管而改变。如果讲话者的发音中包含喜、怒、哀、乐等情感信息,那么讲话者的声道形状就会发生不同的变化。共振峰作为情感特征信息的非韵律特征参数,我们研究提取它的方法对包含在语音信号中的情感信息分析和处理是极其

21、有意义的12。1.2 情感语音识别技术的国内外发展现状九十年代中期之后,语音情感信息处理受到了越来越多的关注,这方面的研究也在不断深入,并取得了一定的进展。近几年,研究者对语音中的情感信息表现出日益浓厚的兴趣。他们从生理、心理学角度的情感建模到语音情感的声学关联特征,以及各种针对语音情感识别和合成的算法、理论展开了深入的研究,还从工程学的角度将情感作为信息信号工学的研究对象。但是,目前不论从国外还是国内来看,情感信息处理的研究,还是处在一个低级水平,存在一些需要进一步深入研究的课题。如:合理的有效的语音情感特征建模方法;开发更全面更有效的语音情感特征;对情感语句中主要反映情感变化的关键词和短语

22、的研究。下面将分别简单介绍国内外情感语音识别发展现状。1.2.1 国际情感语音识别发展现状目前,关于情感的研究正处在不断的深入之中,语音的情感识别因为涉及到不同语种之间的差异,发展也不尽相同。美国MIT媒体实验室Rosalind Wpicard教授领导的情感研究组织首次尝试了用基频、时长、音质和清晰度等声学参数的变化来合成情感语音。她后来又验证了情感状态与语音声学参数的相关性,并提出悲伤情感最容易区分,而高兴、惊讶和愤怒等具有相似的语音特性参数,不容易区分3。此后,MIT媒体实验室Raul Fernandez在2003到2004年还完成了关于从语音的韵律学参数入手的语音情感识别的计算模型研究,

23、试验用有韵律特征进行分类实验,比较了与人类情感识别的性能差异45。英国贝尔法斯特女王大学的RoddyCowie和EllenDouglas-Cowie教授领导的情感语音小组研究的重点在于心理学和语音分析。他们收集并创建了第一个大规模的高自然度声音的情感数据库,同时还开发了一个FEELTRACE工具用来记录人类从语音中感知到的情感信息6。他们还开发了一个情感语音分析的ASSESS工具,用统计的方法分析语音的声学特征与情感的相关性,并用基频曲线、能量强度和停顿、摩擦音及爆破音的边界信息等,对愤怒、害怕、高兴和悲伤4类主要情感进行了分类,用判别分析的方法达到了55%的识别率78。美国南加州大学语音情感

24、组由Narnyanan教授领导。在语音情感识别方面,他们以客服系统的呼叫中心为应用背景,研究识别正面情感和负面情感。首次将语音的声学信息、词汇和语义信息结合,并将模糊推论系统用于识别系统,初步试验结果表明,结合这三种信息进行语音信号的情感识别要比单纯使用声学信息识别率平均提高了38.5%9。C N Anagnostopoulos和T Iliou.建立了德语语音库,提取了133个语音特征来识别其中语音情感,根据统计分析来估计每种语音特征、人工神经网络用于训练情感分类,最后达到了平均51%的识别率10。 1.2.2 国内情感语音识别发展现状目前,国内也已经有多所高校从事语音情感识别的研究,东南大学

25、、清华大学、浙江大学、中国台湾大学、中国科学院、微软亚洲研究院、哈尔滨工业大学等机构在这方面做了大量工作。东南大学无线电工程系赵力教授的实验小组在国内率先开展了普通话语音情感识别的研究。他们分析了不同情感的语音在时间构造,能量构造,基音构造,共振峰构造等方面的差别,以情感语音和自然语音特征向量的差值作为情感识别特征,用主成分分析法识别高兴、惊奇、愤怒、悲伤四类情感,在较小的实验数据集中能达到约80%的识别率11。由清华大学计算机科学与技术系的蔡莲红教授领导的人机语言交互实验室也开展了普通话语音情感识别研究。蒋丹宁通过特征的区别特性分析和分类实验,研究了韵律特征在普通话语音情感识别中的作用。将韵

26、律特征分解为纯语音的特征和纯情感的特征,并将后者运用于语音情感识别,用多层感知器对六种情感进行识别,得到平均82.4%的识别率12。台湾大同大学资讯工程学系的包苍龙教授领导的数据通讯与信号处理实验室也较早地致力于普通话语音情感识别的研究。他们构建一个包含愤怒、高兴、悲伤、厌烦和中立五个情感类别,约800句情感语音的普通话情感语音数据库。在语音情感识别中,提取16个LPC参数,12个LPCC参数,16个LFPC参数,16个PLP参数,20个MFCC参数组成向量,作为识别特征,用LDA,KNN和HMM分类器对说话人无关和说话人相关两组语音素材做识别,得到最高88.7%的识别率13。中国电子科技研究

27、院的付丽琴等人以HMM作为语音情感分类器模型,对不同情感状态选择不同的特征向量进行识别。系统分两个阶段完成:首先基于漏识率和误识率最小的决策原则,采用优先选择(PFS)算法分别为每种情感状态选择最优的特征向量,然后用这些特征向量分别建立对应情感状态的HMM模型。利用北航情感语音库(BHUDES)对算法进行验证,将所有实验样本分为训练样本集、特征选择样本集和测试样本集3组,采用交叉实验的方法对本算法进行验证,结果表明,与单特征向量HMM相比,多特征向量HMM可达到更高识别精度14。1.3 本文的主要研究内容及结构安排1.3.1 本文的主要研究内容1.研究情感语音信号共振峰提取的背景及研究意义,分

28、析情感语音识别技术的国内外研究现状、应用领域。2.探索提取情感语音信号中共振峰参数所所遇到的问题困扰。(1)虚假峰值 (2)共振峰合并 (3)高音调语音3.分析共振峰的多种提取方法。(1)谱包络提取法共振峰信息包含在语音频谱包络中,因此共振峰参数提取的关键是估计自然语音频谱包络,并认为谱包络中的最大值就是共振峰。(2)倒谱法提取共振峰 因为倒谱运用对数运算和二次变换将基音谐波和声道的频谱包络分离开来。去除了激励引起的谐波波动,所以可以更精确地得到共振峰参数。(3)LPC法提取共振峰从线性预测导出的声道滤波器是频谱包络估计器的最新形式,线性预测提供了一个优良的声道模型(条件是语音不含噪声)。(4

29、)求根法提取共振峰找出多项式复根的过程通常采用牛顿拉夫逊 (Newton-Raphson)算法。(5)LPC倒谱法提取共振峰语音信号的倒谱可以通过对信号做傅里叶变换,取模的对数,在求反傅里叶变换得到。4. 重点研究分析倒谱法提取语音信号共振峰,并利用这种方法提取情感语音中的共振峰。5. 对共振峰提取结果进行分析,并得出结论。1.3.2 本文的结构安排第一章是绪论,说明了本文的选题意义,概括介绍了情感语音识别的国内外发展现状,最后介绍了本文的主要研究内容及结构安排。第二章主要介绍了情感分类的基础理论和情感语音数据库,最后介绍了语音情感识别系统。首先简单地介绍通过离散形式和情感维度空间两种方法概述

30、了情感的分类,然后介绍了情感语音数据分为3个类别以及本文所用的情感语音数据库。最后介绍了语音情感识别系统。第三章介绍了共振峰的概念,说明了共振峰在情感语音识别中的重要性;接下来分析了提取共振峰参数所遇到的问题。第四章对语音情感识别中的共振峰的提取方法进行了分析介绍。包括谱包络提取法、倒谱法提取共振峰、LPC法提取共振峰、求根法提取共振峰和 LPC倒谱法提取共振峰,并简单分析了这几种提取共振峰方法的优缺点。第五章重点介绍了倒谱法提取共振峰的过程。首先介绍了倒谱的定义以及倒谱法提取共振峰的原理,接下来画出了共振峰提取框图和共振峰提取流程图,最后给出了情感语音中高兴、生气和中立的共振峰提取结果。并对

31、共振峰提取结果进行分析与总结。第六章是对本文主要工作和研究成果的总结,并对下一步语音情感识别中共振峰提取的研究工作做出展望。第2章 情感的分类与语音情感识别2.1 情感的分类情感类型的合理界定是对语句进行情感标注的基础。在情感计算领域,许多学者从不同的角度研究了情感的分类问题,并提出了相应的情感类型定义。传统的研究通常用日常语言标签来标识和分类情感,比如把情感分为高兴、愤怒、害怕等15。美国心理学家Eckman提出了六种基本情绪16:愤怒、恐惧、悲伤、惊讶、高兴和厌恶。而Plutchik提出过八种基本情绪17悲痛、恐惧、惊奇、接受、狂喜、狂怒、警惕、憎恨。Shaver等人则认为原始情绪有愤怒、

32、爱、高兴、害怕、悲伤、惊讶六类18,这和Eckman的六类墓本情绪存在微小差异。另外,关于语音情感的研究还可以更为简单化,部分研究对情感的分类更侧重于系统的实用性。例如,将语音仅分为“无情感含义”与“带情感含义”两大类;或是分为“情感强烈”与“情感不强烈”两大类;部分研究只关注于用户的情感状态是“正常”还是“不正常”;还有的研究只注重用户的某些负面情感,如“挫败”、“厌烦”、“僧恶”等等。除了以标签法将情感分成离散的类别之外,一些研究者尝试在连续的空间中描述情感,也称作维度轮19。在此基础上,Plutchik等人提出了“情感轮”理论,认为情感分布在一个类似于钟表盘的圆形结构上,圆心是自然原点,

33、表示人在内心平静时的情感状态,而圆周上的标注标明儿种基本情感类型,其排列方式可根据具体研究需要设置20。情感语句的情感类型和强度可用情感轮组成的二维空间中的情感矢量表示,该矢量同自然原点之间的距离体现了情感的强度,方向则表示情感类别。尽管心理学、认知学等领域的研究人员对于情感种类的定义五花八门,但在目前绝大多数的语音情感识别系统中,使用的情感类别是MPEG-4国际标准定义的五种情感状态,即“愤怒(Anger)”、“恐惧(Fear)”、“高兴(Happiness)”、“悲伤(Sadness)”和“惊讶(Surprise)”,外加“中立(Neutral)”来表征语音不具有情感含义。2.2 情感语音

34、数据库要对语音进行情感识别,情感语音数据库的建立是基础。怎么样才能获取高质量的情感语音是建立语音库的关键问题。因为语音的质量将直接影响整个语音情感识别系统的性能。按照表达的情感自然度可以将情感语音数据分为3个类别:自然型情感语音、表演型情感语音和引导型情感语音19。自然型情感语音是在说话人不知情的情况下获取的完全放松状态下的情感语音。这种类型的语音被普遍认为是最理想最可信的情感语料。然而,由于涉及法律和版权问题,这类情感语音的录制较为困难,成本也比较高。表演型情感语音是指情感表现力较强的演员模仿不同情感朗诵指定语句获得的情感语料。相对于自然型情感语音,表演型情感语音较容易获取,可控制性较强,可

35、以根据需要录制任意说话内容的情感语句。然而表演型情感语句中的情感成分被夸张了,而且自然度也受说话人的演技高低影响。引导型情感语音是指通过一定的外界环境和手段,引导说话人的情绪进入某种特定的状态,从而录制情感语音的方法。引导型情感语音通常通过文字对说话者进行引导,即通过说话人朗读带有一定感情色彩的文本,获得所需要的情感语句。引导型情感语音是自然型和表演型情感语音录制方法的一种折中,定制性比较强且语料的获取相对方便,适合基于不同文本的语音情感方面的研究。然而,纯文本引导对于内心情感状态的生成比较缓慢和微弱,这种方式获得的情感语句对文本内容的选择性比较强。由于语音情感信息的地域性差异,目前情感语音研

36、究领域中缺乏标准数据库,需要研究者录制符合自身研究要求的情感语料库。本文应用的是由高兴、生气、中立三种情感语音组成的情感语音数据库,每种情感语音分别有中英文两种语言,所用情感语句的中文文本为“我到北京去”英文文本为“Good morning”以wav格式存储,持续时间五秒以内,经过反复的主观听觉实验,认为该情感语音数据库的语料情感辨识度较高,自然度也比较理想,可以满足本文的研究需求。2.3 语音情感识别系统图 2-1 典型语音情感识别系统的框图语音情感识别系统与语音识别系统类似,分为语音情感语句预处理、特征参数提取和模式匹配三个部分。其识别过程如下:首先对情感语句进行预处理,语音情感语句预处理

37、包括预加重、分帧加窗和端点检测等;其次是对情感语句提取特征参数,如MFCCI、LPCC、LPMCC和ZCPA等频谱特征参数;最后将不同情感的特征参数进行训练形成不同的模板库,并将待识别情感的特征参数与模板库进行模式匹配,从而将情感识别结果输出。典型的语音情感识别系统如图2-1所示。第3章 共振峰的基本概念3.1 共振峰参数的概念及产生原理发音时,气流通过声道,引起声道谐振,产生的一组谐振频率,称为共振峰频率或简称共振峰。共振峰参数包括共振峰频率和频带宽度,它是区别不同韵母的重要参数。共振峰信息包含在频率包络之中,因此共振峰参数提取的关键是估计自然语音频谱包络,一般认为谱包络中的最大值就是共振峰

38、1。共振峰的分布位置是建立在声音产生媒介的共鸣物理结构基础上的(Resonant Physical Structure)。无论是人声还是乐器,它们的声音特性都源自两个因素,一个是发声系统,如人的声带或乐器的振动簧片,另一个是共鸣系统。乐器不同的共鸣系统使其在一定频域中的分音的振幅得以突出,这样,这些区域就产生了这个乐器所特有的共振峰值,这些共振峰值同共鸣体的大小、形状的材料密切相关。由于一件乐器的结构是稳定的,因此在一件乐器发出的所有音调中,不论基频如何,都会表现出相同的共振峰值,只不过其显著性有强有弱罢了。这就可以帮助我们解释为什么在很多的乐器中,同一乐器所发出的不同音调具有相同的音质。在语

39、音声学中,人声也同样受自身生理如鼻孔、咽腔、口腔大小的影响有自身的共振峰区(Formant Regions)。通过利用这些共鸣空间的形状和大小不同的变化(例如改变咽喉、嘴形),我们就能改变声音的共振峰。我们之所以能够区分不同的人声、元音,主要也是依靠它们的共振峰分布的位置。3.2 共振峰参数的研究意义汉语普通话发音中情感特征信息的特征参数主要包括发音持续时间、振幅能量、基音频率和共振峰频率等。共振峰是反映声道谐振特性的重要特征,它代表了发音信息的最直接来源,而且人在语音感知中利用了共振峰信息,所以共振峰参数的提取一直以来都是语音信号处理领域中重要的研究题之一。共振峰参数已经广泛地用作语音识别的

40、主要特征和语音编码传输的基本信息,共振峰轨迹包含了说话人的个性特征,对说话人识别有着重要意义,同时也是语言学家研究人类发音技能的有效工具21。3.3 提取共振峰参数所遇到的问题与基音检测类似,共振峰估计也是表面上看起来很容易,而实际上又受很多问题困扰。这些问题包括:(1)虚假峰值。在正常情况下,频谱包络中的极大值完全是由共振峰引起的。但在线性预测分析方法出现之前的频谱包络估计器中,出现虚假峰值是相当普遍的现象。甚至在采用线性预测方法时,也并非没有虚假峰值。为了增加灵活性会给预测器增加个额外的极点,有时可利用这些极点代表虚假峰值。(2)共振峰合并。相邻共振峰的频率可能会靠的太近而难以分辨。这时会

41、产生共振峰合并现象,而探讨一种理想的能对共振峰合并进行识别的共振峰提取算法存在很多实际困难。(3)高音调语音。传统的频谱包络估计方法是利用由谐波峰值提供的样点。高音调语音的谐波间隔比较宽,因而为频谱包络估值所提供的样点比较少,所以谱包络的估计就不够精确。即使采用线性预测进行频谱包络估计也会出现这个问题。在这样的语音中,线性预测包络峰值趋向于离开真实位置,而朝着最接近的谐波峰位移动。第4章 共振峰的提取方法及分析4.1 谱包络提取法共振峰信息包含在语音频谱包络中,因此共振峰参数提取的关键是估计自然语音频谱包络,并认为谱包络中的最大值就是共振峰。下图4-1是对21帧信号的线性预测谱包络提取分析22

42、。 (1) 原始语音帧信号 (2)线性预测信号 (3)预测误差 (4)预测信号功率谱 (5)预测信号幅频响应 (6)声道倒谱 (7)LPC倒谱 (8)LPC倒谱包络图 4-1 信号线性预测谱包络提取分析图4.2 倒谱法提取共振峰虽然可以直接对语音信号求离散傅里叶变换(DFT),然后用DFT谱来提取语音信号的共振峰参数,但是,直接DFT 的谱要受基频谐波的影响,最大值只能出现在谐波频率上,因而共振峰测定误差较大。为了消除基频谐波的影响,可以采用同态解卷技术,经过同态滤波后得到平滑的谱,这样简单地检测峰值就可以直接提取共振峰参数,因而这种方法更为有效和精确。因为倒谱运用对数运算和二次变换将基音谐波

43、和声道的频谱包络分离开来。因此用低时窗从语音信号倒谱c(n)中所截取出来得h(n),能更精确地反映声道响应。这样,由h(n)经DFT得到的H(k),就是声道的离散谱曲线,用H(k)代替直接DFT的频谱,因为去除了激励引起的谐波波动,所以可以更精确地得到共振峰参数。图 4-2 倒谱法求取的共振峰参数图4.3 LPC法提取共振峰从线性预测导出的声道滤波器是频谱包络估计器的最新形式,线性预测提供了一个优良的声道模型(条件是语音不含噪声)。尽管线性预测法的频率灵敏度和人耳不相匹配,但它仍是最廉价、最优良的行之有效的方法。用线性预测可对语音信号进行解卷:即把激励分量归入预测残差中,得到声道响应的全级模型

44、H(z)的分量,从而得到这个分量的参数。尽管其精度由于存在一定的逼近误差而有所降低,但去除了激励分量的影响。此时求出声道响应分量的谱峰,就可以求出共振峰,这里有两种途径:一是用标准的求取复根的方法计算全级模型分母多项式A(z)的根,称为求根法;一是用运算量较少的DFT法,求A(z)的离散频率响应A(k)的谷点来得到共振峰的位置。因为,所以求此多项式系数序列(1,a1,a2,ap)的DFT,就可以得到A(k)。但是一般预测阶数p不大,这就影响了求其谷点即求其共振峰频率值的精度。为了提高DFT 的频率分辨率,可以采用补0 的办法增加序列的时间长度,即用(1,a1,a2,ap,0,0,0)进行DFT

45、,为了能利用FFT,长度一般取为64点、128点、256点、512点等。另外也可以采用抛物线内插技术,解决频率分辨率较低的情况下的共振峰频率值的求取。图 4-3 LPC谱估计法求取的共振峰参数图4.4 求根法提取共振峰找出多项式复根的过程通常采用牛顿拉夫逊(Newton-Raphson)算法。其方法是一开始先猜测一个根值并就此猜测值计算多项式及其导数的值,然后利用结果再找出一个改进的猜测值。当前后两个猜测值之差小于某门限时结束猜测过程。由上述过程可知,重复运算找出复根的计算量相当可观。然而,假设每一帧的最初猜测值域前一帧的根的位置重合,那么根的帧到帧的移动足够小,经过较少的重复运算后,可使新的

46、根的值会聚在一起。当求根过程初始时,第一帧的猜测值可以在单位圆上等间隔设置。具体过程是:设:为第一个根,则其共轭值 也是一个根。设与i对应的共振峰频率为Fi,3dB 带宽为Bi,则它们存在下面的关系: (4.1) (4.2)所以: (4.3) (4.4)式中,T是采样周期。因为预测器阶数p 是预先选定的,所以复共轭对的数量最多是p/2。因而判断某一个极点属于哪一个共振峰的问题就不太复杂。而且,不属于共振峰的额外极点容易排除掉,因为其带宽比共振峰带宽要大得多。4.5 LPC倒谱法提取共振峰语音信号的倒谱可以通过对信号做傅里叶变换,取模的对数,再求反傅里叶变换得到。由于频率响应H(e j) 反应声

47、道的频率响应和被分析信号的谱包络,因此用log |H(e j)| 做傅里叶反变换求出的LPC 倒谱系数,也可以被认为是包含了信号谱的包络信息,因此可以将其看作对原信号短时倒谱的一种近似。图 4-4 LPC倒谱法求取的共振峰参数图通过线性预测分析得到的合成滤波器的系统函数为H(z)=其冲击响应为h(n)。下面求h(n)的倒谱,首先根据同态分析方法,有因为是最小相位的,即在单位圆内是解析的,所以一定可以展开成级数形式,即就是说的逆变换是存在的。设,将两边同时对z-1求导,得 (4.5)得到 (4.6)有 (4.7)令式左右两边z的各次幂前系数分别相等得到: (4.8)按照上式可直接从预测系数ai求

48、得倒谱。这个倒谱是根据现行预测模型得到的,又称为LPC倒谱。4.6 几种提取方法分析比较以上实验表明,倒谱法因为其频谱曲线的波动比较小,所以估计共振峰参数的效果是较好的,但其运算量太大。LPC 法的缺点是用一个全极点模型逼近语音谱,对于含有零点的某些音来说A(z)的根反映了极零点的复合效应,无法区分这些根是相对于零点还是极点,或完全与声道的谐振极点有关。声道的系统函数可以由一组LPC 预测系数唯一确定, 因此通过分析能估计出声道调制的效果, 即获得共振峰参数。当然, LPC 分析阶P 的选择很重要, 它近似等于语音信号的抽样频率, 这是因为语音谱一般可用每1kHz 具有1 对共扼极点的平均密度

49、来表示声道造成的响应, 于是采样频率为Fs(kHz)的语音信号的LPC 谱大约有Fs 个极点。LPC 分析在大多数情况下能成功提取语音的共振峰参数。求根法求取共振峰的优点在于通过对预测多项式系数的分解可以精确地确定共振峰的中心频率和带宽。LPC 倒谱由于利用线性预测中声道系统函数H(z)的最小相位特性,因此避免了一般同态处理中对复对数的麻烦。 图 4-5 共振峰参数求取三种方法比较分析图当前还有很多种新的共振峰提取方法,每个方法都是在传统共振峰提取方法的基础上进行研究和改进提出的,在一定的基础上较好的实现了共振峰的提取,效果也较为理想,但都保留了一定的改进空间供后来者继承和研究创新。本文重点研

50、究倒谱法提取共振峰,倒谱法根据对数功率谱的逆傅立叶变换,能够分离频谱包络和细微结构,很精确地得到共振峰信息。4.7 同类文章提取方法比较基于提取语音信号中的共振峰有多种方法,有很多采取其他共振峰提取方法的同类论文。杭州电子工业学院郁伯康,郁梅在LPC方法提取语音信号共振峰的分析中说明线性预测编码(LPC)是进行语音信号分析、语音信号编码最有效的技术之一。其重要性在于提供了一组简洁的语音信号模型参数,比较精确地表征了语音信号的幅度谱,而分析它们所需的计算量相对而言并不大。文中就LPC方法提取语音信号共振峰进行研究。研究讨论了数字滤波器H(z)在z-平面上的幅-频、相-频特性,分析比较了对数幅-频

51、特性的二次导数、相-频特性的一次导数和三次导数的频率分辨率。并结合理论分析和实验结果表明,采用相-频特性与对数幅-频特性同样能够提取语音信号共振峰。并且,与L(2)(),(1)()相比,(3)()随增加而衰减得最快,并最终说明(3)()具有最高的频率分辨率,能更有效地解决共振峰合并的问题,提取更精确的语音信号共振峰参数24。刘建新,曹荣,赵鹤鸣在西华大学学报中发表的一种LPC改进算法在提取耳语音共振峰中的应用论文中说明了传统线性预测编码(LPC)算法在提取语音共振峰时存在虚假峰和合并峰的问题。耳语音不同于正常语音的特性,使得准确提取其共振峰存在更大的困难。文中分析了共振峰提取中存在的极点交叉问

52、题,通过对极点排序,提出基于极点交叉的LPC改进算法,从而有效解决这两个问题,并在实验结果中证明了此算法能够根据实际要求准确提取耳语音的前三个或前四个共振峰25。章文义,朱杰,陈斐利在一种新的共振峰参数提取算法及在语音识别中的应用一文中采用了一种基于逆滤波器原理的方法来识别共振峰参数。用一组逆滤波器来逼近语音信号的短时能谱,通过动态搜索算法可以得到滤波器组中各个滤波器的位置与带宽,从而确定了共振峰的位置和带宽。采用了优化动态搜索的算法,提高了运算速度。把共振峰作为特征参数用于一个小词汇量的汉语语音识别系统中,识别正确率达到了98%26。LPC法的缺点是用一个全极点模型逼近语音谱,对于含有零点的

53、某些音来说A(z)的根反映了极零点的复合效应,无法区分这些根是相对于零点还是极点,或完全与声道的谐振极点有关。所以本文采用倒谱法提取情感语音中的共振峰。因为倒谱运用对数运算和二次变换将基音谐波和声道的频谱包络分离开来。因此用低时窗从语音信号倒谱c(n)中所截取出来得h(n),能更精确地反映声道响应。这样,由h(n)经DFT 得到的H(k),就是声道的离散谱曲线,用H(k)代替直接DFT的频谱,因为去除了激励引起的谐波波动,所以可以更精确地得到共振峰参数。但是采用倒谱法提取共振峰的缺点是运算量太大。第5章 倒谱法提取共振峰的实现5.1 倒谱的定义设信号的z变换为,其对数为 (5.1)那么的逆变换

54、可写成 (5.2)取,式(5.1)可写为 (5.3)式(5.2)可写为 (5.4)则式(5.4)即为信号的复倒谱的定义。在英语中,倒谱Cepstrum是将谱Spectrum中前四个字母倒置后得到的,因为一般为复数,故称为复倒谱。如果对的绝对值取对数,得 (5.5)则为实数,由此求出的倒频谱c(n)为实倒谱,简称为倒谱,即 (5.6)在式(5.3)中,实部是可以取唯一值的,但对于虚部,会引起唯一性问题,因此要求相角为的连续奇函数3。倒谱和复倒谱的主要区别是对序列对数幅度谱的傅立叶逆变换,它是复倒谱中的偶对称分量。它们都将卷积运算,变为伪时域中的加法运算,使得信号可以运用满足叠加性的线性系统进行处

55、理。复倒谱涉及复对数运算,而倒谱只进行实数的对数运算,较复倒谱的运算量大大减少。5.2 倒谱法提取共振峰原理共振峰信息包含在频谱包络之中,因此共振峰参数提取的关键是估计自然语音频谱包络,谱包络中的最大值就是共振峰。下面我们分析声道冲激响应序列经过倒谱后的特征。选择最普遍的极零模型来描述声道响应x(n),其z变换的形式为: (5.7)经过傅立叶变换、取对数和逆傅立叶变换后可以得到其复倒谱: (5.8)对于倒谱可以只考虑它的幅度特性,可以看出,它是一个衰减序列,且衰减的速度快。因而它比原信号x(n)更集中于原点附近,或者说它更具有短时性。倒谱算法运用对数运算和二次变换将基音谐波和声道的频谱包络分离

56、开来。根据其特点利用短时窗可以从语音信号倒谱c(n)中截取出h(n)。由h(n)经DFT得到的H(K)就是声道的离散谱曲线,由于它去除了激励引起的谐波动,因此能更精确地得到共振峰参数。但是使用倒谱法估计共振峰频率中要注意,并不是所有的谱峰都是共振峰,而且当两个共振峰很靠近时,会发生谱重叠,很难计算共振峰的带宽。5.3 倒谱法提取情感语音共振峰具体实现过程倒谱将情感语音谐波和声道的频谱包络分离开来。倒谱的低时部分可以分析声道、声门和辐射信息,而高频部分可用来分析激励源信息。对倒谱进行低时选窗,通过语音倒谱分析系统的最后一级,进行DFT后的输出即为平滑后的对数模函数,这个平滑的对数谱显示了特定输入

57、语音段的谐振结构,即谱的峰值基本上对应于共振峰频率,对平滑过的对数谱中的峰值进行定位,即可提取共振峰。图5-1为共振峰提取框图,图5-2为共振峰提取流程图23。图 5-1 共振峰提取框图 图 5-2 共振峰提取流程图5.4 共振峰提取结果及结论分析5.4.1 情感语音原始波形图 5-3 情感语音高兴原始波形图 5-4 情感语音生气原始波形图 5-5 情感语音中立原始波形5.4.2 情感语音共振峰提取结果图 5-6 情感语音高兴共振峰提取结果图 5-7 情感语音生气共振峰提取结果图 5-8 情感语音中立共振峰提取结果5.4.3 结论分析本文所研究的高兴、生气、中立三种情感语音的录音文本为“Goo

58、d morning”,时长为一秒,这三种情感语音的原始波形分别如图5-3、5-4和5-5所示。运用本文所介绍的算法,对高兴、生气、中立三种情感语音信息进行共振峰提取,得到的结果如图5-6、5-7和5-8所示,从图中可以看出,相对于中立发音而言,高兴和生气的第一共振峰频率相对升高,从人的发音特点来看,人们在表达高兴和生气时,嘴比平静发音时张得更大,因此会出现这样的结果。所以说,可以用共振峰作为区分不同情感语音的手段。第6章 总结与展望6.1 全文总结语音情感识别是新型人机交互技术的研究热点之一,国内外关于语音情感识别的研究还处于探索尝试阶段,对于语音情感特征参数的提取方法还有待进一步地深入研究。

59、本文就情感语音中共振峰参数的提取方法进行了研究,并应用倒谱法实现了情感语音中共振峰参数的提取,现将本文主要工作总结如下:(1) 介绍情感分类及本文所用情感语音数据库。(2) 分析情感语音共振峰参数提取的多种方法,并比较优缺点。(3) 重点介绍倒谱法以及倒谱法提取语音信号中共振峰的原理与具体过程,并实现运用倒谱法实现共振峰的提取。(4) 根据本文共振峰提取结果进行分析,得出高兴、生气和中立三种情感语音的共振峰分析结论。6.2 展望 本文对语音情感识别做了一些基础性的研究,基本完成了情感识别和情感特征参数中共振峰的提取工作,但是在语音库建立、情感语音共振峰提取方法的选择等很多方面仍然不够完善,还需要进行改进和进一步地深入研究,对于下一步的研究工作建议从以下几个方面开展1.完善情感语音库。由于本实验中采用的语音库仅仅包含高兴、生气和中立三种情感,语音库的情感种类太少,这与实际中人类丰富的情感是不符的,可以再将其它情感补充进来;同时提高情感语音表达的自然度,扩大情感语料的涉及范围,并且尽可能的使语音库涵盖多个语种。并同时提取多种情感种类的语音信号共振峰,并分析提取结果。2.倒谱法因为其频谱曲线的波动比较小,所以估计共振峰参数的效果是较好的,但其运算量太大。LPC法的缺点是用一个全极点模型逼近语音谱,对于含有零点的某些音来说A(z)的根反映了极零点的

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!