语音端点检测算法的研究与matla程序仿真与实现设计说明

上传人:x**** 文档编号:69534105 上传时间:2022-04-05 格式:DOC 页数:65 大小:933KB
收藏 版权申诉 举报 下载
语音端点检测算法的研究与matla程序仿真与实现设计说明_第1页
第1页 / 共65页
语音端点检测算法的研究与matla程序仿真与实现设计说明_第2页
第2页 / 共65页
语音端点检测算法的研究与matla程序仿真与实现设计说明_第3页
第3页 / 共65页
资源描述:

《语音端点检测算法的研究与matla程序仿真与实现设计说明》由会员分享,可在线阅读,更多相关《语音端点检测算法的研究与matla程序仿真与实现设计说明(65页珍藏版)》请在装配图网上搜索。

1、摘要语音端点检测是指从一段语音信号中准确的找出语音信号的起始点和结束点,它的目的是为了使有效的语音信号和无用的噪声信号得以分离,因此在语音识别、语音增强、语音编码、回声抵消等系统中得到广泛应用。 目前端点检测方法大体上可以分成两类,一类是基于阈值的方法,该方法根据语音信号和噪声信号的不同特征,提取每一段语音信号的特征,然后把这些特征值与设定的阈值进行比较,从而达到语音端点检测的目的,该方法原理简单,运算方便,所以被人们广泛使用,本文主要对基于阀值的方法进行研究。另一类方法是基于模式识别的方法,需要估计语音信号和噪声信号的模型参数来进行检测。由于基于模式识别的方法自身复杂度高,运算量大,因此很难

2、被人们应用到实时语音信号系统中去。端点检测在语音信号处理中占有十分重要的地位,直接影响着系统的性能。本文首先对语音信号进行简单的时域分析,其次利用短时能量和过零率算法、倒谱算法、谱熵算法进行语音端点检测,并对这几种算法进行端点检测,并进行实验分析。本文首先分别用各算法对原始语音信号进行端点检测,并对各算法检测结果进行分析和比较。其次再对语音信号加噪,对不同信噪比值进行端点检测,分析比较各算法在不同信噪比下的端点检测结果,实验结果表明谱熵算法语音端点检测结果比其他两种方法好。关键词语音端点检测;语音信号处理;短时能量和过零率;倒谱;谱熵53 / 65AbstractEndpoint detect

3、ion is a voice signal from the accurate speech signal to the identify start and the end points, the purpose is to enable to separated the effective voice signals and un-useful noise. So, in the speech recognition system, speech enhancement, speech coding, echo cancellation and other systems are wide

4、ly used.In Current the endpoint detection can be roughly divided into two categories, one is based on the threshold method based on the different characteristics of speech signal and the noise signals, a voice signal for each extracted feature, and then set the values of these thresholds compare wit

5、h the values to achieve the endpoint detection purposes, This method is simple, it convenient operation, it is widely used, the main in this paper is based on the method of threshold method. Another method is based on the method of pattern recognition, it needs to estimate the speech signal and the

6、noise signal model parameters were detected. Because is based on the method of pattern recognition and high self-complexity, a large amount of computation, so it is difficult to be use in real-time voice signal system for people.The Endpoint detection is take a very important position inthe speech r

7、ecognition, it directly affects the performance of the system. In this article first domain analysis in simple speech signal time, than dual threshold algorithm, cepstrum algorithm, spectral entropy algorithm for endpoint detection, and these types of endpoint detection algorithms, and experimental

8、analysis points. Firstly, the algorithm were used to the original speech signal detection, and the algorithm to analyze and compare results. Secondly, the speech signal and then adding noise, SNR values for different endpoint detection, analysis and comparison of various algorithms under different S

9、NR endpoint detection results, experimental results show that the spectral entropy of speech endpoint detection algorithm results better than the other two methods.Keywordsvoice activity detection;Signal processing; Average energy use of short-term and short-time average zero-crossing rat; cepstrum;

10、 spectral entropy 毕业设计(论文)原创性声明和使用授权说明原创性声明本人重承诺:所呈交的毕业设计(论文),是我个人在指导教师的指导下进行的研究工作与取得的成果。尽我所知,除文中特别加以标注和致的地方外,不包含其他人或组织已经发表或公布过的研究成果,也不包含我为获得与其它教育机构的学位或学历而使用过的材料。对本研究提供过帮助和做出过贡献的个人或集体,均已在文中作了明确的说明并表示了意。作 者 签 名:日 期:指导教师签名: 日期:使用授权说明本人完全了解大学关于收集、保存、使用毕业设计(论文)的规定,即:按照学校要求提交毕业设计(论文)的印刷本和电子版本;学校有权保存毕业设计(

11、论文)的印刷本和电子版,并提供目录检索与阅览服务;学校可以采用影印、缩印、数字化或其它复制手段保存论文;在不以赢利为目的前提下,学校可以公布论文的部分或全部容。作者签名: 日 期:学位论文原创性声明本人重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律后果由本人承担。作者签名: 日期: 年 月 日学位论文使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或

12、机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权大学可以将本学位论文的全部或部分容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。涉密论文按学校规定处理。作者签名:日期: 年 月 日导师签名: 日期: 年 月 日指导教师评阅书指导教师评价:一、撰写(设计)过程1、学生在论文(设计)过程中的治学态度、工作精神 优 良 中 与格 不与格2、学生掌握专业知识、技能的扎实程度 优 良 中 与格 不与格3、学生综合运用所学知识和专业技能分析和解决问题的能力 优 良 中 与格 不与格4、研究方法的科学性;技术线路的可行性;设计方案的合理性 优 良 中 与格 不与

13、格5、完成毕业论文(设计)期间的出勤情况 优 良 中 与格 不与格二、论文(设计)质量1、论文(设计)的整体结构是否符合撰写规? 优 良 中 与格 不与格2、是否完成指定的论文(设计)任务(包括装订与附件)? 优 良 中 与格 不与格三、论文(设计)水平1、论文(设计)的理论意义或对解决实际问题的指导意义 优 良 中 与格 不与格2、论文的观念是否有新意?设计是否有创意? 优 良 中 与格 不与格3、论文(设计说明书)所体现的整体水平 优 良 中 与格 不与格建议成绩:优 良 中 与格 不与格(在所选等级前的画“”)指导教师: (签名) 单位: (盖章)年 月 日评阅教师评阅书评阅教师评价:一

14、、论文(设计)质量1、论文(设计)的整体结构是否符合撰写规? 优 良 中 与格 不与格2、是否完成指定的论文(设计)任务(包括装订与附件)? 优 良 中 与格 不与格二、论文(设计)水平1、论文(设计)的理论意义或对解决实际问题的指导意义 优 良 中 与格 不与格2、论文的观念是否有新意?设计是否有创意? 优 良 中 与格 不与格3、论文(设计说明书)所体现的整体水平 优 良 中 与格 不与格建议成绩:优 良 中 与格 不与格(在所选等级前的画“”)评阅教师: (签名) 单位: (盖章)年 月 日教研室(或答辩小组)与教学系意见教研室(或答辩小组)评价:一、答辩过程1、毕业论文(设计)的基本要

15、点和见解的叙述情况 优 良 中 与格 不与格2、对答辩问题的反应、理解、表达情况 优 良 中 与格 不与格3、学生答辩过程中的精神状态 优 良 中 与格 不与格二、论文(设计)质量1、论文(设计)的整体结构是否符合撰写规? 优 良 中 与格 不与格2、是否完成指定的论文(设计)任务(包括装订与附件)? 优 良 中 与格 不与格三、论文(设计)水平1、论文(设计)的理论意义或对解决实际问题的指导意义 优 良 中 与格 不与格2、论文的观念是否有新意?设计是否有创意? 优 良 中 与格 不与格3、论文(设计说明书)所体现的整体水平 优 良 中 与格 不与格评定成绩:优 良 中 与格 不与格(在所选

16、等级前的画“”)教研室主任(或答辩小组组长): (签名)年 月 日教学系意见:系主任: (签名)年 月 日目 录摘要IAbstractII第1章 绪论11.1课题背景11.2 语音端点检测现状11.3 相关工作21.4 本文主要研究容3第2章 语音信号时频域分析与预处理42.1 语音信号简述42.2 语音信号分析42.2.1 时域分析52.2.2 频域分析52.3 语音信号分析处理72.3.1 预加重72.3.2 加窗分帧82.4 本章小结9第3章 语音端点检测算法研究103.1 语音端点检测103.1.1 简述103.1.2 语音端点检测原理103.1.3 语音端点检测算法与实施方案123.

17、2 基于短时能量和短时过零率的语音端点检测143.2.1 短时平均能量143.2.2 短时过零率163.2.3 基于短时能量和短时过零率的双门限端点检测173.2.4 双门限语音端点检测实验193.3 基于倒谱特征的语音端点检测203.3.1 倒谱特征203.3.2 倒谱距离203.3.3 倒谱距离的检测算法流程233.3.4 基于倒谱特征的语音端点检测试验分析253.4 基于谱熵的语音端点检测263.4.1 谱熵特征263.4.2 基于谱熵的端点检测流程273.4.4 基于谱熵特征的语音端点检测试验分析283.5 算法比较303.6 本章小结33结 论35参考文献36致 37附录139附录2

18、45附录353附录461附录569第1章 绪论1.1课题背景语音端点检测在语音识别中占有十分重要的地位。语音信号处理中的端点检测技术,是指从一句简单的话语中检测出每一个字体或字节的两个端点。是进行其它语音信号处理(如语音识别、讲话人识别等)关键的第一步。进行有效的语音端点检测能够对语音信号更好的进行分析和训练,这样语音识别才能有好的识别率1。实际运用中,通常要求首先对系统的输入信号进行判断,准确地找出语音信号的起始点和终止点。这样才能采集真正的语音数据,减少数据量和运算量,并减少处理时间。目前,语音技术进入了一个相对成熟点,很多厂商和研究机构有了语音技术在输入和控制上令人鼓舞的演示,输入的硬件

19、和软件平台环境也日益向高级化迈进,但语音技术比起人类听觉能力来还相差很远,其应用也才刚刚开始,进一步规和建设语音输入的硬件通道、软件基本引擎和平台,使语音技术能集成到需要语音功能的大量软件中去。而且语音产业需要更加开放的环境,使有兴趣和实力的企业都能加入到这方面的研究和开发中,逐步改变。随着声控电子产品的不断研发,语音识别技术在开发和研究上还有大量的工作需要做。1.2 语音端点检测现状一个比较好的语音识别或者语音端点检测,不仅仅在其所用到的算法。大多数的语音识别都是对整个系统影响是非常大的,不仅仅是语音识别,也包括语音端点检测。平常的用于实验的也许差不多少,但对于一些高精度的检测或者识别则谬以

20、千里。语音识别都是基于不同算法而进行的,所以每一种识别都要与不同算法相匹配。因此从信号段中检测出语音信号或者语音端点是语音识别的必要的预先处理过程2。随着科技的进步,技术的发展。语音识别、语音检测、语音合进入了一个跟高的阶段,语音识别在手机电脑上的应用也虽着科技进步而上升。然而,在一些比较嘈杂的环境下,或者专业一点的技术上的识别,随着信噪比的降低,噪声污染的多样性,噪声环境下的语音识别会大大的降低4。如,在我们身处的环境下,开门声、风扇、水声等等,都算背景噪声。而语音信号所处理的信号时一些纯语音信号,或者是把一些背景噪声降下去。而语音端点检测就是在语音中检测出语音信号和非语音信号,并把语音信号

21、的两个端点给标记处理。语音端点检测是语音识别、语音增强以与语音编码等中的一个非常重要的环节而且必不可少的。有效的端点检测技术不仅能减少系统的处理时间、提高系统的处理实时性,而且能排除无声段的噪声干扰,从而使后面工作的性能得以较大提高5,6。随着越来越多的学者对语音端点检测技术的关注,大量的新的语音端点检测算法相继被提出,而基于同一种算法又有不同的方法。例如对于熵值参数特征的检测算法,有基于信息熵7,8、基于自适应子带谱熵9、子带二次谱熵10、基于小波能量熵11、基于样本熵等的方法12。信息愈来愈趋近多样化。同样也有检测不同参数特征相结合来进行语音端点检测13,比如倒谱的方法14,15和熵谱相结

22、合而形成的算法16。尽管算法和方法多种多样,都是为了更简便、更易于实现、运算量小、鲁棒性好等特点,并且对于不同的信噪比具有较好的效果。1.3 相关工作随着生活品质的不断提高,对声控产品的要求越来越高。基于语音端点检测的识别系统则有不可替代的作用,在不同的声控产品语音识别系统中,有效准确地确定语音段端点不仅能使处理时间减到最小,而且能排除无声段的噪声干扰,从而使识别系统具有良好的性能。通过大量的文献调研与实际研究发现,现有的各种语音信号端点检测技术都存在各自的不足。对于语音信号在低信噪比时的端点检测的研究有待进一步深入研究。当前,语音端点检测技术还处于比较初级阶段,许多领域还有待解决,还远远跟不

23、上现代科技发展的脚步。对于现在噪声污染的环境的加重,还有信噪比的一直变化,语音端点检测还有待更深一步的研究。我们常常寻求新的方法,新的算法,或者在新算法上研究新的方法,更容易对人类声音的识别,或者更适于人耳听觉系统的算法。但这些算法都是基于一些旧的理论上研发出来的,因此这种领域是很难有更大的进步,但也正是考验创新的能力17。根据语音信号参数的特点可以从两个较大方向入手。一个是努力寻求新型的特征参数,再一个就是利用现有的特征参数采用多特征融合。这两大问题将是以后研究的主要对象18。1.4 本文主要研究容第二章 ,简述了语音信号的一些基础知识,包括预处理、分帧、加窗。分析了语音信号的时域和频域,介

24、绍了几种语音端点检测算法,简述了我的实施方案。第三章,从每一种算法的方程式入手,以原理简便、运算量小等方面为标准,通过大量的文献调研与实际研究,本课主题要研究语音起点和终点的检测,以短时能量和短时过零率相结合的双门限语音端点检测算法以与倒谱分析和谱熵技术等进行语音端点检测,并分析各算法在低信噪比和高信噪比条件下的检测效果进行对比。对这种信号进行Matlab进行编程,对于不同信噪比的声音片段,最后用前后的噪声信号进行对比以得出结论。第2章 语音信号时频域分析与预处理语音信号处理包括语音识别、语音合成、语音编码、说话人识别等方面,但是其前提和基础是对语音信号进行分析。语音端点检测是语音识别系统的前

25、期处理,而语音信号的分析则是语音端点检测的前期处理。2.1 语音信号简述通过对人们所说的语音进行研究和对语音频谱的分析,发现人们包括男女老少的语音频谱很集中,大部分都集中在3003400Hz围。我们可以对语音通过带通滤波器来得到我们所需要的频谱,就可以得到相应频谱所对的语音。然后对频谱围的语音进行采集采样,一般是8kHz左右的采样率,这样我们就可以得到离散时域的语音信号。如果想要更为精准的采样或者更为完全的采样域,我们可以相应的提高采样率或者提高采样围,现在的语音检测现状都不在时传统的采样率,而是调整为自适应。语音信号有另一个非常重要的特性,就是要保持它的短时特点,所有的关于信号处理都是基于它

26、的短时特性而研发的。因为语音信号只有在短时才能保持它的稳定和平滑。就如同我们经常见到的短时能量、短时过零率,还有一些如同短时频谱和短时自相关函数。我们在进行语音处理过程中,所用到的参数都是短时的参数特征,因此在预处理过程,必须有使信号保持短时的过程,即分帧,就是分为一个一个的短时。常常分的帧为几十毫秒,在这几十毫秒,我们认为语音信号是保持平稳的。语音信号还有一个比较简单的分类,是基于人类发音的音素所分类的。一般可以分为清音和浊音两类。虽然中国与外国人的发音有所不同,但从音素上来说都是一样的。如果从短时性上来分析,就会很直观的发现清音和浊音的不同,一般来说,浊音在短时能量上拥有较高的波峰,而清音

27、则一般就低一点。还有一类是无声,而无声是处于波谷。2.2 语音信号分析平常的语音信号处理包括一些语音识别、语音检测、语音编码、说话人识别等方面,这所有的检测都是基于对语音信号的识别,所以必须先对人们所说语音信号进行分析,则需要对语音信号短时性的特征参数进行提取分析。参数的提取,方法的创新,这都基于语音科技的发展。语音信号的处理归根还是对语音短时的分析,语音端点检测的好坏、语音识别的精准度,这都根据语音信号分析的准确度。2.2.1 时域分析从一般的语音信号处理仿真来看,横坐标都是为时间,所以说,语音信号是时域信号,经常处理的语音信号也是基于时域来分析的,这种方法一般就是利用仿真的波形来处理。通常

28、分析方法有基于短时能量、短时频谱、短时过零率、短时自相关函数等,这些短时性参数更为直观的显示语音信号的特性,因此在语音信号数字处理技术占有很重要的地位。进行语音信号分析时,先接触到并且直观的就是它的时域波形。时域分析常用于基本的参数分析,语音信号的分割、预处理与检测。这种分析方法的特点有:(1)表示语音信号比较直观、物理意义明确;(2)实现起来比较简单、运算量少;(3)可得到语音的一些重要参数;(4)采用示波器通用设备进行观测等。取样之后对信号进行量化采样,而量化过程会产生量化误差,即量化后的信号与原信号之间的差值。2.2.2 频域分析语音信号频域分析,主要是对一些频域参数进行分析,常用一些频

29、域参数的有频谱、功率谱等等,最常用频域分析的方法有傅立叶变换法、线性预测法等。2.2.2.1 傅立叶变换法 傅里叶变换是语音信号频域分析中最广泛使用的方法,并且是分析线性系统和平稳信号稳态特性最有力的手段。对加窗分帧后的语音信号,进行傅里叶变换后再逆傅里叶变换,可以相应的得到频谱、功率谱、倒谱距离、熵谱等特征。由于语音信号的特性是随着时间变化,所以采用短时傅里叶变换,相应的求得的特征为短时频域特征,这里的窗函数都采用汉明窗。(1)短时频谱和短时功率谱 设信号经过傅里叶变换后在频域记为,则与关系如公式(2-1): (2-1)语音的频谱为的幅度,则有: (2-2)语音的短时功率谱的是幅度的平方,其

30、公式为: (2-3)(2)倒谱距离 语音信号的倒谱分析是通过同态处理来实现的。同态信号处理也称为同态滤波,是将非线性问题转为线性问题进行处理的方法。由于语音信号可以视为声门激励信号和声道冲击响应进行的卷积,随后可以对语音信号进行解卷。倒谱能很好表示语音的特征,在噪声环境下,可通过倒谱系数而求得倒谱距离,使用倒谱距离来作为语音端点检测的特征。信号的倒谱也可以定义为信号的能量谱密度函数的对数的傅里叶级数展开式的系数,见式2-4:(2-4)即为倒谱系数,通过倒谱系数求得倒谱距离为: (2-5)(3)熵 熵(用表示)是物质的概率程度的一种反映。熵代表的信息量,当的分布概率相等时,熵取最大值,也就是说,

31、的概率分布越随机,越难判断,值也就越大。设是取有限个值的随机变量则取的概率函数通常表示为:(2-6)则的熵为:(2-7)2.2.2.2 线性预测法 线性预测分析的基本原理如下:语音信号分帧采样后,各个语音样点之间存在着联系,可以用前几帧的采样点来预测当前帧或者后几帧的样点值,即可以用先前的帧的参数值通过线性组合来近拟后面的帧的采样值。这样通过抽样和线性组合得到的采样值只有唯一的组合系数。这组预测系数就反应了语音信号与噪声不同的参数特征,根据这种参数特征,就可以进行语音端点检测和语音识别等一系列语音信号的处理。将线性预测应用与语音信号分析,不仅仅是因为它的预测功能,而且更为重要的是由于它可以提供

32、一个非常好的声道模型和模型参数估计方法。线性预测的原理与语音信号数字模型相关。2.3 语音信号分析处理为了消除人类发声器官本身和一些采集语音信号的设备等所引发的混叠、高次谐波失真现象,在对语音信号进行分析与处理之前,须对其进行预处理。语音信号的预处理应保证处理后得到的信号更平滑、均匀,而且能提高语音的质量。2.3.1 预加重在进行语音信号数字处理时,它们的功率谱随频率的增加而减小,其大部分能量集中在低频围。这就造成消息信号高频端的信噪比可能降到不能容许的程度。但是由于消息信号中较高频率分 量的能量小,很少有足以产生最大频偏的幅度,因此产生最大频偏的信号幅度多数是由信号的低频分量引起。平均来说,

33、幅度较小的高频分量产生的频偏小得多。为此在预处理中先进行预加重处理。目的是提升高频部分,使信号变得平坦、平滑,使之不仅在低频而且在高频的整个频带中,可以用一样信噪比求频谱如图2.1:采样量化预加重加窗分帧参数提取语音信号图2.1 语音信号的预处理预加重是在语音信号数字量化之后,用具有6dB/倍频程的提升高频特性的预加重数字滤波器来实现,它通常是一阶的数字滤波器: (2-8)式中的取值一般取1左右。有时需要恢复原信号,需要从做过预加重的信号来际的频谱,需要对测量值进行去加重处理,即加上6dB/倍频程的下降的频率特性来恢复原来的特性。2.3.2 加窗分帧语音端点检测首先要进行加窗分帧处理,然后依次

34、判断每一帧的信号是否为语音的起点或终点。而在语音端点检测时如果采用大的窗长,则帧长长,帧数少,这样计算量会小些,而且进行语音端点检测时速度会快些,但是这样语音端点检测的误差会增加。如果采用小的窗长,则计算量增加,语音识别的速度可定会降低。所以我们在语音端点检测时,采用适量的窗,可以确切判断语音的起始点,会有比较快的速度,也不会有太大的运算量。但至于选帧,则需要根据实时而定,不同的算法也会有不同的窗长。在进行了预加重后,要对语音信号进行加窗分帧处理。通常将语音信号划分为许多短时的语音时段,每个短时的语音段称为一个帧。帧和帧之间可以连续,也可以重叠。重叠是为了是语音信号各帧之间保持平滑,差别不至于

35、太大,更符合人们的语音特征。为了能够符合实际而且能精准的描述语音信号能量的实际中的变化规律,通常将窗宽选为几十毫秒左右。分帧一般采用交叠分段的方法,这就是为了使帧与帧之间能够很好的平滑过渡,使其保持连续性。前一帧和后一帧的交叠部分称为帧移,帧移与帧长的比值一般在00.5之间。分帧用可移动的窗口长度进行加权实现,即用窗函数乘以语音信号s(n),从而形成加窗的语音信号:(2-9)由于窗函数一般取为S(n)中间大两头小的光滑函数,这样的冲激响应所对应的滤波器具有低通特性,其带宽和频率取决于窗函数的选取。用得最多的三种窗函数是矩形窗、汉明窗(Hamming)和汉宁窗(Hanning)。它们的定义如下:

36、 矩形窗:(2-10)汉明窗:(2-11)汉宁窗:(2-12)式中N为窗长,窗函数的选取(形状和长度)对于短时分析参数的特性影响很大,为此应该选择合适的窗口,使其短时参数能更好地反映语音信号的特性变化。2.4 本章小结本章分析了语音信号的时域和频域的一些特征,并列举了语音的几个特征参数,如熵、短时能量、倒谱特征等。介绍了语音信号前期处理的两个步骤:预加重、加窗分帧。有时要恢复原信号,则需要从做过预加重的信号频谱来际的频谱时,并且要对测量值去加重处理,即加上6dB/倍频程的下降的频率特性来还原成原来的频谱特性。语音信号为时域信号,分帧则有助于计算语音信号的各个参数特征,可以对语音信号进行平滑处理

37、,是进行语音端点检测必不可少的步骤。第3章 语音端点检测算法研究本章将重点介绍语音端点检测的原理,本章还对语音端点检测算法的进一步研究,列举了三种不同的语音端点检测算法,并对每一种语音端点检测算法进行了实验仿真,最后对各种算法优缺点进行了比较。3.1 语音端点检测3.1.1 简述语音端点检测是语音识别中的一个很重要的步骤,所谓语音端点检测就是将输入的语音信号从背景噪声和环境噪声中能够准确地判断出语音信号中各种语音的起始点和结束点。理想的端点检测算法应当具有以下几个特征:可靠性、自适应性、实时性、鲁棒性和精确性。在语音识别系统中,正确的检测出语音端点,不仅能够快速且准确的进行语音识别,而且能够减

38、小计算量,排除无声段干扰,实验发现,不管在什么环境或者什么样信噪比的环境下,语音端点检测的错误将导致语音识别的错误。除此之外,在语音合成、编码等一系列语音信号处理系统中,较好的语音端点检测会影响语音识别系统的主要性能。因此,语音端点检测的速度和准确率在语音处理系统中会非常重要,因此进一步的对语音端点检测算法的研究,有一定的现实意义。3.1.2 语音端点检测原理语音端点检测的原理就是基于语音段和噪声段对于一些语音信号的参数会表现出不同的特征,通过对特征参数的区别就能对语音信号进行端点检测。得到一个语音信号,先对其进行预处理,使低频和高频在信噪比参数上表现的平滑,易于检测。然后加窗分帧,使之在短时

39、特性上表现的连续、平滑。通常分帧时会有帧与帧之间的帧移,以防止信号的突变,影响端点检测。再后面就是对特征参数的提取,不同信噪比会有不同的易于区别噪声和语音的特征参数。端点判决就是根据噪声和语音特征参数的不同,设置一定的门限,再设置一些相应的最短语音段以方便检测。在检测过程中,参数提取和端点的判决尤为显得重要。参数提取意义在于提取的参数能够分辨出语音和非语音信号。本文所进行的语音端点检测,其就是检测出噪声与语音信号的差别,并标记出来。语音是人体所发出的声音,其物理原理是源于声带的振动。而噪声一般是源于外界物理碰撞所引起的振动。这两者在频率、能量上有很大的差别。如本文采用的短时能量和短时过零率相结

40、合的算法是基于能量差别,而倒谱和谱熵则是基于其他的特征参数。人的语音又可以分为清音和浊音两类,其在能量上就可以分出来,而清音和浊音在短时过零率上可以分别出来。所以参数的提取,直接影响到语音端点检测的性能。语音端点检测流程如图3-1所示:预处理参数提取端点判决是否信号最后一帧后处理 信号输入 是 结果输出图3-1 语音端点检测流程图噪声信号常常为说话人周围的噪声,不同环境下的噪声信号也不同,所以特征参数会有变化。端点检测时通过估计后噪声比基于不同的噪声而设定的不同门限。设定一定的门限后,当超过设定值,而且超过最小语音段的几帧也可以超过设定值,则会被认为是语音信号。当最后几帧值低于设定值,而且后几

41、帧的值低于设定值且大于最小噪声信号,则被认为是语音结束。最初为单门限,后逐渐改为双门限,随着科技的发展,又转变为模糊理论或者多特征参数相结合的方式。一种较好的语音端点检测算法通常应具备如下四个特征:(1)语音端点检测的准确率高,尤其对于清音段端点能够正确判决;(2)端点检测算法须具有对绝大多数噪声鲁棒性、抗干扰能力;(2)端点判决准应具有自适应性,而不是仅仅简单的门限判决;(4)检测算法应较简单,而且运算量较小,便于实现硬件仿真。以上特征分别是从语音端点检测的自适应性、准确性、稳定性、和运算量上对算法提出要求。3.1.3 语音端点检测算法与实施方案语音端点检测算法是各种语音信号分析的综合处理,

42、到目前为止还没有很正规的分类方法。但我们可以按照实际应用的围分类,当然也可以按照所使用的特征参数准则分类。按照所采用的特征参数或分析方法的不同,本论文将语音端点检测的算法或方法分为:(1)时域参数方法 主要是指基于短时能量、过零率和短时自相关与一些其他时域参数(如最小均方参数、对数能量、绝对值能量等)的方法。此外,基于自适应门限的方法也归入这一类;(2)变换域参数方法 包括基于频域参数、时频域参数与小波域参数的方法。此外,还包括一些基于Walsh谱能量分布和Hilbert-Huang变换的检测方法;(3)信息论方法 主要是根据概率等得出信号所包含的信息量,放到端点检测算法中去,本文所选取的谱熵

43、也属于这类。(4)距离和失真测度方法 最常用的是倒谱距离,由梅尔系数推出倒谱系数,再得出梅尔倒谱距离,具有很好的语音检测;(5)人工神经网络方法 包括基于前馈网络、径向基函数网络、多层感知器网络、自组织循环自组织模糊推理神经网络和自适应线性神经元网络等的方法;(6)统计模型和模式分类方法 主要是指基于HMM模型。此外,还会有一些基于其他如多统计模型、似然检验、模式识别、模糊逻辑等方法;短时能量和过零率相结合的方法常用于高信噪比下,而现实生活中的语音信号常为低信噪比。谱熵的大小取决的是功率谱的方差不是其大小,如果谱的分布保持不变,信号幅值的大小不会影响归一化谱概率密度函数,因而谱熵对于噪声有一定

44、的鲁棒性。倒谱能很好表示语音的特征,在强噪声环境下,常常采用倒谱系数来作为端点检测的特征量。因此在低信噪比下将选择熵值或者倒谱特征参数来进行语音端点检测。本文拟用短时能量和过零率相结合的方法检测高信噪比,熵谱和倒谱系数来检测低信噪比。流程图如图3-2所示:噪声估计信噪比估计端点检测短时能量和过零率熵谱算法倒谱算法高信噪比 低信噪比图3-2 算法研究流程图3.2 基于短时能量和短时过零率的语音端点检测传统常用的短时能量和过零率相结合的算法通常利用用短时能量来检测浊音、短时过零率来检测清音,或者两者相配合以便实现语音信号信噪比较大情况下的端点检测。算法对于输入信号的检测过程可分为短时能量检测和短时

45、过零率检测两个部分。算法以短时能量检测为主,短时过零率检测为辅。跟据语音信号的特性与各语言的发音特性,把语音可以分为清音、浊音和无声三种特性,在短时能量和过零率相结合的算法过程中,短时能量检测可以能够分辨出浊音和清音。由于清音能量比较小,会常常把其与无声混淆。但由过零率检测能够清晰的分辨出清音和无声。因此通过两种算法相结合的方法,在高信噪比下,进行语音端点检测能有很好的效果。3.2.1 短时平均能量从能量谱的实验结果可以看出,语音和噪声的能量值有很大的差别,根据这实验结果就可以由能量值来区分噪声和语音或者进行语音端点检测。语音信号不是稳定的,所以要经过分帧。通过分帧后,形成短时语音信号,在短时

46、语音信号是保持平稳的,对每一帧的能量幅度进行积和,得出每一帧的短时能量,根据每一帧的短时能量,设定一定的门限。经实验发现,浊音的短时能量最大,清音次之,静音最小。n时刻某语音信号x(n)的短时平均能量定义为: (3-1)式中,为汉明窗。令,则有:(3-2)式中,h(n)为窗函数,其有一定的长度。语音信号一般在10ms到30ms之间,我们可以把它看成是平稳的。为了处理语音信号,我们要对语音信号进行加窗,也就是一次仅处理窗中的数据。因为实际的语音信号是很长的,我们不能也不必对非常长的数据进行一次性处理。明智的解决办法就是每次取一段数据,进行分析,然后再取下一段数据,再进行分析,这样通过语音信号与窗

47、函数相乘等出一个类似窗的函数值,在此帧的前面帧和后面的帧都为零值,这样是语音信号保持了短时性。短时能量用来区分清音和浊音。浊音比起清音来,有较高的短时能量。语音信号的短时平均幅度定义为:(3-3)一般比较清晰的语音根据短时能量就能够检测出语音端点,但是有的时候,一个字的后面为清音,而其的短时能量又很小,很难跟随后的无声片段分开,有人提出了基于短时过零率的算法来区分清音和浊音,语音和噪声在其幅度穿越横轴的次数上有很大的区别,根据这点,提出短时能量和短时过零率相结合的方法在高信噪比环境下的检测。语音信号的短时能量可用以下几种算法得到: (3-4)(3-5) (3-6)在计算机上实现仿真时,幅度表现

48、为波形的高度,高能量的信号波峰高,而低能量的信号波峰比较低,进行端点检测时,设置门限则根据波峰的高度来设置。双门限则是先设置低一点的幅度进行先判决,在选高一点的值进行判决。下面是通过windows录的语音“1、2、3、4、5”,并通过matlab仿真来计算语音短时能量。如图3-3所示:图3-3 语音信号的短时能量从图3-3中可以看出语音“12345”语音信号中语音部分的能量是最高的,由于语音部分又分成静音段、清音段、浊音段。短时能量函数可用来区分清音段和浊音段。“23”的值比较大所以其对应于浊音段,而“145”值相对较小所以其对应于清音段。对于高信噪比的语音信号,无语音信号的噪声能量很小,而有

49、语音信号的能量很大,设定某一数值,就可可以区分语音信号的起点和终点。3.2.2 短时过零率短时过零率表示一帧语音信号波形穿过横轴的次数。由语音信号的波峰波谷之间的变化,然后对其进行归一化处理,波峰波谷之间的变化转为穿过横轴的次数,也是穿过零轴的次数,称为短时过零率。过零率就是样本改变符号的次数。定义语音信号Xn(m)的短时过零率Zn为:(3-7)其中,sgn为符号函数,即: (3-8)过零率有很重要的作用,如:用于粗略地描述信号的频谱特性,就是用多带滤波器将信号分为若干个通道,对各通道进行短时平均过零率和短时能量的计算。再个就是区分清音和静音。当发清音时,多数能量出现在较高频率上,而高频就意味

50、着高的平均过零率。而噪声总是处于间断等情况,所以其频率会比较低,低频就意味着低的短时过零率,所以认为静音时有低过零率,而清音具有高过零率。当然,这种高低仅是相对而言的,并没有精确的数值关系。下面是语音信号通过matlab 仿真显示过零率,如图3-4所示:图3-4语音信号的过零率 从图3-4中可以看出语音信号的过零率,在语音信号中清音段的过零率情况,图中幅度变化反映了过零率次数的高低。基于短时能量和短时过零率相结合语音端点检测方法,充分利用能量和过零率的优点,使用过零率区分清音和静音。在区分浊音和清音时,由于两者在短时能量的区别,所以根据短时能量分辨出清音和浊音,而在区分清音和无声片段时,则由短

51、时过零率来区分。但随着噪声的增加,过零率占有稍微好点的优势,等加到一定的程度后,这两种方法都将失去检测的效果。3.2.3 基于短时能量和短时过零率的双门限端点检测这种方法是基于短时能量和短时过零率相结合的方法,既能分辨出清音和浊音,也能分辨出清音和静音。通常每一个参数设两个门限。首先设一个比较低的门限,当所测得的参数值大于这个门限,说明信号可能进入语音阶段,再设一个稍微高一点的门限,当超过这个参数值的时候,说明信号进入语音段。随后的几帧一直大于这个值,而这几帧大于最小语音值,则一定进入语音阶段。由上述描述,可得其简单步骤如下:(1)首先要计算每一帧的短时能量和短时过零率,然后又由每一帧的这两个

52、参数值得出特征参数,即能零比。(2)由特征参数值,先选一个比较低一点的门限,进行最先的预判,如果低于这个门限肯定不是语音信号。再就是设置另一个高一点的门限,如果低于这个门限,则有可能不是语音信号。(3)当进入语音阶段时,就开始判决语音信号的终止点。先是比较高一点的门限判决。如果低于这个门限,则语音信号有可能进入语音结束,再往后搜索,如果继续降低且低于较低的门限,则语音信号进入无声阶段。(4)检测的高低门限要通过多次实验并且根据当时的信噪比环境而确定的。语音的开始和结束由于时间上的差异,信噪比也会有差异,这样决定着门限选择的复杂性。检测过程中也要设置最低语音段和对短静音段,这更有效的提高了语音端

53、点检测的准确度。从步骤上来看,可以把一个语音信号分成四个阶段,静音、开始过渡结束四个阶段。在程序编写过程中,常设置一个量来辨别当前的状态,以决定下一个是什么阶段。在静音时,超过门限,则进入语音段,低于门限,进入结束。整个过程都是以门限值为基础,最短语音和最短静音为辅来进行和提高语音端点检测。我们所设置的最短语音和最短静音就是为了防止一些突发性的噪声。我们说的话语有一定的幅度,短时能量就是根据语音信号的幅度检测出语音端点的,而一些比较大的噪声或者碰撞声音也好导致短时能量或过零率的数值接近语音信号的数值,但是这种信号持续的时间比较短,在时域上表示出很短的又很高的一段语音。因此可以根据突发噪声短时间

54、性质,对语音长度设置一定的门限。当超过较高门限后,信号进入语音阶段,但如果语音阶段持续时间小于设定的时间长度,则被认为是突发性噪声,所有值归零,并重新开始进行语音检测。两个语音字之间发音是有一定的时间间隔,因此也需设定最短静音,如果处于静音段,而其长度小于最短静音,则认为语音还没结束,继续语音段的检测。3.2.4 双门限语音端点检测实验双门限语音端点检测是在MATLAB软件环境下进行仿真实验。文中语音信号样本是自己采用麦克风录得语音“啊”,以wav格式存储为较纯净的语音样本。在语音端点检测之前首先要对被测的语音信号进行预处理等,包括分帧加窗等。文中加Hmmaing窗,通过特性为(1-0.94)

55、的滤波器预加重。对其他参数进行设置,如设置语音帧长度,帧移长度,FFT取,门限阀值设置等。首先先在比较安静的环境下进行录音,以模拟高信噪比的环境。随后根据语音的长度,加一序列与语音长度相等的随机幅度序列,以提高噪声信号的短时能量和过零率,比较逼真的仿真噪声环境下的基于短时能量和过零率的语音端点检测。如图所示:图3-5 高信噪比能零率的语音端点检测图3-6 低信噪比能零率的语音端点检测因为是在比较安静的环境的情况下录得语音,所以信噪比比较高。从 图3-5中可以看出,在高信噪比的情况下,采用短时能量和过零率相结合的语音端点算法能够清晰的检测出语音字的端点。图3-6是对语音进行加噪,即通过matla

56、b加1序列的白噪声。如果降低语音信号的信噪比,再通过短时能量和过零率的方法检测,不能够检测语音端点。3.3 基于倒谱特征的语音端点检测3.3.1 倒谱特征在语音识别系统中,不管是语音识别还是语音检测,倒谱这个特征参数要比短时能量和过零率含有更高的信息量,也更容易与噪声信号区分开来,因此有许多端点检测的方法都是基于倒谱特征来进行的。实验证明,倒谱特征能更好的表现语音信号的特征。噪声环境下,短时能量和短时过零率显得无能为力,而倒谱则能够忽略噪声大小的影响而直接从本质上把语音信号和噪声信号给区分开来。本文这节也将倒谱特征参数用于在噪声环境下的语音端点检测。3.3.2 倒谱距离设信号s(n) ,其倒谱

57、变换为c(n)。信号倒谱的一种定义是信号的能量谱密度函数s() 的对数的傅里叶反变换,或者可以将信号s(n) 的倒谱c(n) 看成是logS() 的傅里叶级数展开,即: (3-9)式中, c(n)为倒谱系数,且c(n)=c(-n)是实数对于一对谱密度函数S(w)与S(w),利用Parseval定理,用谱的倒谱距离表示对数谱的均方距离为: (3-10)式中,cn与cn分别表示谱密度S(w)和S(w)的倒谱系数,对数谱的均方距离表示两个信号谱的差别,故可用来作为一个判决参数。实际上,由于c0包含信号能量信息,基于能量的端点检测可以看作倒谱距离的一个特例。倒谱距离的测量法步骤类似于基于能量的端点检测

58、,但将倒谱距离代替短时能量来作为门限。首先,假定前几帧信号是背景噪声,计算这些帧的倒谱系数矢量,利用前几帧倒谱矢量的平均值可估计背景噪声的倒谱矢量,噪声倒谱矢量的近似值可按规则3-11进行更新,即当前帧被认为是非语音帧: (3-11)式中.c为噪声倒谱矢量的近似值,ct为当前测试帧的倒谱矢量, p为调节参数。下式计算倒谱距离 (3-12) 式中cn为对应于c的噪声倒谱系数,计算所有测试帧与背景噪声之间的倒谱距离可得到倒谱距离轨迹。类似于基于能量的端点检测过程,利用倒谱距离轨迹可检测语音的端点。我们处理信号是用的倒谱特征是复倒谱特征,其是由语音信号先经过傅里叶变化,然后求其复对数进行逆傅立叶变换

59、便就可以得到信号复倒谱,我们称之为FFT复倒谱。3.3.2.1 LPC倒谱特征 本文选用LPC倒谱特征,其基本的原理是由线性预测系数而推出的倒谱系数,线性预测系数有较快的计算速度,没有傅里叶变换中的复杂卷积,使其保持较高的检测速度。LPC倒谱特征与FFT复倒谱特征相比,前者求出的频谱包络能更好地重现谱的峰值,而且运算量仅是后者的一半,在实时语音识别中采用LPC倒谱作为特征向量较好。我们可以根据人耳听觉特性将线性预测推出的倒谱系数按照符合人听觉特性的美尔(MEL)尺度进行非线性变换,从而求出LPC美尔倒谱系数。3.3.2.2 线性预测系数LPC LPC为用线性预测法分析语音时得到的有关语音相邻样值间某些相关特性的参数组。语音信号分帧采样后,各个语音样点之间存在着联系,可以用前几帧的采样点来预测当前帧或者后几帧的样点值,即可以用先前的帧的参数值通过线性组合来近拟后面的帧的采样值。这样通过抽样和线性组合得到的采样值只有唯一的组合系数。这组预测系数就反应了语音信号与噪声不同的参数特征。计算时可以选用Durbin算法、格型算法、协方差等算法进行求解。3.3.2.3 LPC倒谱 LPC系数推测和估计语音信号的倒谱,这也是语音信号短时倒谱分析中一种比较特殊的处理方法。线性预测分析推定的声道模型系统函数为语音信号的倒谱指的是信号能量谱密度函数的

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!