基于倒谱的大学生语音识别算法研究毕业论文

上传人:痛*** 文档编号:146254954 上传时间:2022-08-30 格式:DOC 页数:60 大小:2.30MB
收藏 版权申诉 举报 下载
基于倒谱的大学生语音识别算法研究毕业论文_第1页
第1页 / 共60页
基于倒谱的大学生语音识别算法研究毕业论文_第2页
第2页 / 共60页
基于倒谱的大学生语音识别算法研究毕业论文_第3页
第3页 / 共60页
资源描述:

《基于倒谱的大学生语音识别算法研究毕业论文》由会员分享,可在线阅读,更多相关《基于倒谱的大学生语音识别算法研究毕业论文(60页珍藏版)》请在装配图网上搜索。

1、LANZHOU UNIVERSITY OF TECHNOLOGY毕业论文 题目: 基于倒谱的大学生语音识别算法研究 College StudentsSpeech Recognition Algorithm based onCepstrum摘要语音是人类最重要的交流工具,随着电子计算机和人工智能机器的广泛应用,人们发现人和机器之间最好的通信方式是语言通信,而语音是语言的声学表现形式。要使机器听的懂人话,就要对语音信号进行处理。随着信息技术的不断发展,尤其是网络技术的日益普及和完善,语音信号处理技术正发挥着越来越重要的作用。为了寻找良好性能的特征、提取重要参数以提高识别系统性能,各种科学的算法应运

2、而生。语音识别的关键技术是提取出语音特征,语音特征有很多,倒谱分析就是其中之一。倒谱法作为信号处理的重要的方法,能够得到比较好的识别性能。本文主要介绍了语音识别技术。基本实现思想是将输入的随机语音信号通过线性变换系统处理为加性信号,用基于Mel频率的倒谱系数(MFCC)以及一些语音信号的固有特征进行倒谱分析。接下来通过对语音倒谱在各个方面的应用进行MATLAB编程仿真,得到语音基音检测和共振峰检测的实验仿真结果。关键词:倒谱;语音识别;共振峰检测;基音检测;兰州理工大学毕业论文AbstractVoice is one of the most important human communicat

3、ion tools. With the widely application of electronic computers and artificially intellective machine, it was discovered that language communication is the best way to communicate between man and machine and the voice was the reflection of the language. If we wanted us understood by the machines, it

4、is necessary to deal with the signal. With the continuous development of IT, especially the popularity of network and perfect system, voice signal processing technology plays an increasingly important role. In order to find a good performance characteristics and extract important parameters to impro

5、ve the performance of the recognition system, a variety of scientific algorithms have been emerged. The key technology of voice recognition is extracting voice features. While there are many voice features, cep-strum analyses is one of them. The cep-strum, as one of the important signal processing m

6、ethods, can get better recognition performance. This paper mainly introduce the voice recognition technology. The basic idea is to casually input voice signal and transform the signal by using additive signal to linear transformation, and use the methods based on Mel(MFCC) frequency as well as some

7、of the speech signal to cep-strum analyze. And then by the usage of the voice spectrum of applications in all aspects programs MATLAB simulation, it can get the simulation results of detect voice pitch and formant detection. Keywords: Cepstrum;Voice recognition;Resonance peak detection;Pitch detecti

8、on;目录第1章 绪论11.1研究背景及意义11.2语音信号研究现状11.3主要研究内容3第2章 语音识别技术基本理论52.1语音信号的数字化与预处理52.2语音识别技术模型62.3语音识别技术原理72.4语音识别系统分类82.5语音识别基本方法82.6语音识别系统基本结构10第3章 倒谱系数分析原理133.1倒谱分析的优点和缺点133.2复倒谱和倒谱的定义133.3复倒谱与倒谱的关系143.4 MFCC153.4.1 MFCC介绍153.4.2 MFCC的原理153.4.3 Mel频率倒谱系数提取过程163.4.4 MFCC算法流程173.4.5 MATLAB中的设计与实现17第4章 语音倒

9、谱的应用194.1倒谱的MATLAB实现194.2倒谱在同态信号处理系统的应用194.3倒谱在基音检测方面的应用214.4倒谱在共振峰检测方面的应用234.4.1 共振峰的概念244.4.2 基于倒谱的共振峰的算法24第5章 倒谱法提取基音频率和共振峰255.1 倒谱法提取基音频率255.1.1 提取基音的方法255.1.2 倒谱分析算法的原理255.1.3 MATLAB中的设计与实现265.2 倒谱法提取共振峰275.2.1 提取共振峰的方法275.2.2 倒谱法的原理275.2.3 MATLAB中的设计与实现27第6章 结论与展望306.1 主要工作总结306.2 后续工作及展望30参考文

10、献31附录32I 相关程序32II 外文资料原文38III 外文资料翻译44致谢55第1章 绪论1.1研究背景及意义语音是语言的声学表现,是人类交流信息最自然、最有效、最方便的手段。人类开始进入信息化时代,用现代手段研究语音处理技术,使人们能更加有效地产生、传输、存储和获取语言信息,这对于促进社会的发展具有十分重要的意义。语音作为当前通讯系统中最自然的通信媒介,随着计算机和语音处理技术的发展,不同语种之间的语音一语音翻译将成为语音研究的热点。随着我国改革开放和对外合作的不断深化,商务往来、文化交流、跨国旅游等活动日益频繁,越来越多的人需要学习一门外语。学习外语存在的主要问题是发音不准确,传统的

11、外语教学方法有着种种不足之处。例如,课堂教学通常受时间、地点以及教师教学水平的限制;广播电视教学和录音录像教学等教学手段不够灵活,无法及时地分析学习者存在的问题,因此也就不能及时地、有针对性地反馈指导意见。利用计算机来帮助外语教学是帮助提高外语水平的重要方法之一。在非母语的语言学习中,以计算机辅助使用者进行非母语学习(Computer-AssistedLanguageLeaming,CALL)己受到相当重视,各方也纷纷投入相关的研究。语音识别技术,也称为自动语音识别,其是为了将人类的语音中的词汇内容转换为计算机可读的输入,例如二进制编码、按键或者字符序列。与说话人确认及说话人识别不同,前者尝试

12、识别或确认发出语音的说话人而非其中的词汇内容。语音识别的关键是提取出语音特征,而语音特征有很多,倒谱系数分析是其中一种。在语音信号处理中可以常用倒谱域来提取语音的共振峰与基音频率,用于语音识别。倒谱系数是一种非常有效表征语音特征的参数矢量, 倒谱具有解卷的特性, 它能将语音信号的声门激励信息和声道响应信息分离开,因此倒谱是说话人识别和语音识别中最常用的特征参数之一。1.2语音信号研究现状声学是物理学的一个分支学科,而语言声学又是声学的一个分支学科。它主要的研究方向是人的发声器官机理,发声器官的类比线路和数学模型,听觉器官的特性(如听阈、掩蔽、临界带宽、听力损失等) ,听觉器官的数学模型,语音信

13、号的物理特性(如频谱特性、声调特性、相关特性、概率分布等) ,语音的清晰度和可懂度等。当今通信和广播的发展非常迅速,语言广播和语言通信仍然是最重要的部分,而语言声学则是这些技术科学的基础。语言声学的发展和电子学以及计算机科学有着非常密切的关系。 在它发展的过程中,有过几次飞跃:第一次飞跃是1907年电子管的发明和1920年无线电广播的出现。 因为有了电子管放大器,很微弱的声音也可以放大,而且可以定量测量。从而使电声学和语言声学的一些研究成果,扩展到通信和广播部门。第二次飞跃应该是20世纪70年代初,由于电子计算机和数字信号处理的发展,人们发现:声音信号特别是语音信号,可以通过模数转换器(A /

14、D)采样和量化,它们转换为数字信号后,能够送进计算机。这样就可以用数字计算方法,对语音信号进行处理和加工。例如频谱分析可以用傅里叶变换或快速傅里叶变换( FFT)实现,数字滤波器可以用差分方程实现。在这个基础上,逐渐形成了一门新学科语音信号处理。它的发展很快,在通信、自动控制等领域,解决了很多用传统方法难以解决的问题。在信息科学中占有很重要的地位,其中语音识别的研究也开始了飞速的发展。语音识别的研究工作可以追溯到20世纪50年代AT&T贝尔实验室的Audry系统,它是第一个可以识别十个英文数字的语音识别系统。但真正取得实质性进展,并将其作为一个重要的课题开展研究则是在60年代末70年代初。这首

15、先是因为计算机技术的发展为语音识别的实现提供了硬件和软件的可能,更重要的是语音信号线性预测编码(LPC)技术和动态时间规整(DTW)技术的提出,有效的解决了语音信号的特征提取和不等长匹配问题。这一时期的语音识别主要基于模板匹配原理,研究的领域局限在特定人,小词汇表的孤立词识别,实现了基于线性预测倒谱和DTW技术的特定人孤立词语音识别系统;同时提出了矢量量化(VQ)和隐马尔可夫模型(HMM)理论。随着应用领域的扩大,小词汇表,特定人,孤立词等这些对语音识别的约束条件需要放宽,与此同时也带来了许多新的问题:第一,词汇表的扩大使得模板的选取和建立发生困难;第二,连续的语音中,各个音素、音节以及词之间

16、没有明显的边界,各个发音单位存在受上下文强烈影响的协同发音(Co-articulation)现象;第三,在非特定人识别时,不同的人说相同的话相应的声学特征有很大的差异,即使相同的人在不同的时间、生理、心理状态下,说同样内容的话也会有很大的差异;第四,识别的语音中有背景噪声和其他干扰。因此原有的模板匹配方法已不再适用。20世纪90年代前期,许多著名的大公司如苹果、IBM、NTT和AT&T都对语音识别系统的实用化研究投以巨资。语音识别技术有一个很好的评估机制,那就是识别的准确率,而这项指标在20世纪90年代中后期实验室研究中得到了不断提高。比较有代表性的系统如下:IBM公司推出的ViaVoice和

17、DragonSystem公司的NaturallySpeaking,Nuance公司的NuanceVoicePlatform语音平台,Microsoft的Whisper,Sun的VoiceTone等。其中IBM公司于1997年开发出汉语ViaVoice语音识别系统,次年又开发出可以识别上海话、广东话和四川话等地方口音的语音识别系统ViaVoice98。它带有一个32000词的基本词汇表,可以扩展到65000词,还包括办公常用词条,具有“纠错机制”,其平均识别率可以达到95%。该系统对新闻语音识别具有较高的精确度,是目前最具有代表性的汉语连续语音。我国语音识别研究工作起步于五十年代初,但近年来发展

18、很快。研究成果也从实验室逐步走向实用。从1987年开始执行国家863计划后,国家计算机专家组为语音识别技术研究专门立项,每两年滚动一次。我国语音识别技术的研究水平已经基本上和国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。中科院自动化所、声学所、北京大学、清华大学、哈尔滨工业大学、中国科技大学、上海交通大学、北京邮电大学、华中科技大学等科研机构都有实验室进行过语音识别方面的研究,其中具有代表性的研究单位为清华大学电子工程系和中科院自动化研究所的模式识别国家重点实验室。清华大学电子工程系语音技术与专用芯片设计课题组,研发的非特定人汉语数码串连续语音识别系统的识别精度,达到

19、94.8%(不定长数字串)和96.8%(定长数字串)。在有5%拒识率情况下,系统识别率可以达到96.9%(不定长数字串)和98.7%(定长数字串),这是目前国际最好的识别结果之一,其性能已经达到实用水平。研发的五千词语音库对非特定人连续语音识别系统的识别率达到98.73%;并且可以识别四川话和普通话两种语言,达到实用要求。中科院自动化所及其所属模式科技公司2002年发布了他们共同推出的面向不同计算平台和应用的“天语”中文语音系列产品PattekASR,结束了中文语音识别产品自1998年以来一直由国外公司垄断的历史。1.3主要研究内容本文研究的是语音信号的倒谱分析,首先第一章的绪论部分,介绍了本

20、文的研究目的与意义、语音信号的研究现状和本文的研究内容。第二章介绍了语音识别技术基本理论。简要对其进行了分类研究,详细说明了语音信号的数字化和预处理、语音识别技术的基本原理、技术模型、以及处理所使用的基本方法。第三章详细叙述了倒谱的定义基本原理以及计算方法,优点和缺点。将倒谱化分为实倒谱和复倒谱,并对二者之间的关系进行区分,由此奠定了倒谱分析研究的基础。然后利用到谱进行了MFCC参数的提取。接着第四章介绍了倒谱系数分析在语音特征提取中的应用,包括基音检测以及共振峰的提取。最后第五章具体研究了倒谱在语音信号处理中的实现方法,主要是语音信号识别的参数提取。首先通过输入一段语音,并将其导入到MATL

21、AB程序中进行语音的处理,完成语音在MATLAB中的倒谱实现。接着介绍倒谱在同态信号处理系统中的作用及同态信号处理系统的工作原理,然后是语音信号的主要应用,也是语音倒谱分析的重点内容,包括基音检测和共振峰检测两个方面,作为语音信号的重要参数,分别进行了详细的设计,同时为了清晰的描述程序的编写过程,对设计思路方法都进行了完备的阐述,并依据设计的算法画出了逻辑流程图,从而在MATLAB中完成程序的编写,最后通过对仿真结果进行了理论的分析,得出了语音的参数量值,完成了对语音信号倒谱分析的内容。第2章 语音识别技术基本理论 语音识别技术,也被称为自动语音识别Automatic Speech Recog

22、nition,(ASR)2,其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。与说话人识别和说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。语音识别是模式识别的一种,它是让机器通过识别和处理过程将语音信号转变成相应的模型参数。一个完整的语音识别系统主要由两部分组成:语音特征提取、声学模型和模式匹配(即识别算法)。常用的语音特征参数有LPCC和MFCC。LPCC参数是根据声管模型建立的特征参数,主要反映声道响应。MFCC参数是基于人的听觉特性利用人听觉的临界带效应,在Mel标度频率域提取出来的倒谱特征参数。标准的MFCC和LPC

23、C参数只反映了语音的静态特性,而它们的差分倒谱参数可以反映语音的动态变化。2.1语音信号的数字化与预处理对模拟语音信号进行量化和采样,获得数字化的语音信号;然后将含噪的语音信号通过去噪处理,得到干净的语音信号后并通过预加重技术滤除低频干扰,尤其是50Hz到60Hz之间的工频干扰,提升语音信号的高频部分,而且它还具有消除直流漂移、抑制随机噪声和提升清音部分能量的作用。降噪后,通过对语音信号的短时能量和短时过零率检测可以剔除掉静默帧、白噪声帧和清音帧,最后保留对求取基音、LPCC、MFCC等特征参数非常有用的语音信号。预处理:假设输入的音频信号为,预处理过程如下。1)归一化处理:归一化处理的目的是

24、消除不同样本声音大小的差异,将样本幅度值限定在-1,+1。2)预加重:预加重一般是用具有6db/倍频程的一阶数字滤波器来实现,如式(21)所示: (2-1)其中为常数,一般取0.97。3)对音频信号进行重叠分帧:为避免信号间断一般取256点为一帧,帧间重叠为128点。语音信号的数字化一般包括放大及增益控制、预滤波(主要是反混叠滤波)、A/D转换(包含采样过程)及编码(PCM编码)。预处理一般包括预处理、加窗和分帧等。有时在分析处理之前必须把分析的语音信号部分从输入信号中找出来,这就是语音信号的端点检测。图2-1是语音信号数字分析或处理的系统框图。语音输入反混叠滤波语音输出合成处理分析处理平滑滤

25、波A/D转换D/A转换传输或存储图2-1 语音信号数字处理系统框图2.2语音识别技术模型目前,主流的大量语音识别系统多采用统计模式识别技术。典型的基于统计模式识别方法的语音识别系统由以下几个基本模块所构成:信号处理及特征提取模块。该模块的主要任务是从输入信号中提取特征,供声学模型处理。同时,它一般包括了一些信号处理技术,以尽可能的降低环境噪声、信道、说话人等因素对特征造成的影响。统计声学模型:典型系统多采用基于一阶隐马尔科夫模型进行建模。 发音词典:发音词典包含系统所能处理的词汇集及其发音。发音词典实际提供了声学模型建模单元与语言模型建模单元间的映射。语言模型:语言模型对系统所针对的语言进行建

26、模。理论上,包括正规语言,上下文无关语法在内的各种语言模型都可以作为语言模型,但目前各种系统普遍采用的还是基于统计的N元文法及其变体。解码器:解码器是语音识别系统的核心之一,其任务是对输入的信号,根据声学、语言模型及词典,寻找能够以最大概率输出该信号的词串。从数学角度可以更加清楚的了解上述模块之间的关系。首先,统计语音识别的最基本问题是,给定输入信号或特征序列,符号集(词典),求解符号串使得: (2-2)通过贝叶斯公式,上式可写为: (2-3)由于对于确定的输入串P(O)4是确定的,因此省略它并不会影响上式的最终结果,因此,一般来说语音识别所讨论的问题可以用上面的公式来表示,可以将它称为语音识

27、别的基本公式。 从这个角度来看,信号处理模块提供了对输入信号的预处理,也就是说,提供了从采集的语音信号(记为S)到特征序列0的映射。而声学模型本身定义了一些更具推广性的声学建模单元,并且提供了在给定输入特征下,估计P的方法。为了将声学模型建模单元串映射到符号集,就需要发音词典发挥作用,它实际上定义了映射的映射。语音识别是一门交叉学科,语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用已经成为一个具有竞争性的新兴高技术产业3。与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。语音识别技术就是

28、让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高科技技术。语音识别是一门交叉学科,近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、制造、通信、汽车电子、医疗、家庭服务、消费电子产品等各领域。语音识别听写机在一些领域的应用被美国新闻界评为1997年计算机发展十件大事之一。2.3语音识别技术原理语音信号处理虽然包括语音通信4,语音合成和语音识别等方面的内容,但其基本前提和基础是对语言信号进行分析。语音的压缩和恢复是语音信号处理的关键技术。近年来有关这方面的研究不断发展成熟,并形成一系列的标准。在语音信号的各种分析合成系统中,需

29、要提取频谱包络参数,推测音源参数(清浊音的判定以及浊音周期等)。只有将语音信号分析表示成其本质特性的参数,才可能利用这些参数进行高效的语音通信,才能建立用于语音合成的语音库,从而建立用于识别的模板或知识库。语音识别的技术原理是找出特征参数。特征提取的目的是找出一组可以代表每位说话者声音特性参数来进行识别,该参数应不宜受环境干扰并具有鉴别能力。对于语音信号而言,倒谱可以将频谱上的高低频成分分离,所以只需取前面几项参数,就能代表语音信号的特性,从而提高识别率。而根据所分析的参数不同,语音信号分析可分为时域,频域,倒谱域等方法。进行语音信号分析时,最先接触到的,也是最直观的是它的时域波形。时域分析具

30、有简单直观,清晰易懂,运算量小,物理意义明确等优点。但更为有效的分析是围绕频域进行的,因为语音中最重要的感知特性反映在其功率谱中,而相位变化只起着很小的作用5。频谱分析具有以下优点:时域波形较易随外界环境变化,但语音信号的频谱对外界环境变化具有一定的顽健性。另外,语音信号的频谱具有非常明显的声学特性,利用频域分析获得的语音特征具有实际的物理意义。如MFCC,共振峰,基音周期等参数。倒谱域是将对数功率谱进行逆傅立叶变换后得到的,它可以进一步将声道特性和激励特性有效地分开,因此可以更好地揭示语音信号的本质特性。本文给出基于倒谱的语音特性的提取算法设计及其实现。使读者对相关技术的基本理论,方法和基本

31、应用有一个系统的了解。2.4语音识别系统分类语音识别系统可以根据对输入语音的限制6加以分类。从说话者与识别系统的相关性考虑:可以将识别系统分为3类:(1)特定人语音识别系统:仅考虑对于专人的话音进行识别;(2)非特定人语音系统:识别的语音与人无关,通常要用大量不同人的语音数据库对识别系统进行扩充;(3)多人的识别系统:通常能识别一组人的语音,或者是特定组语音识别系统,该系统仅要求对要识别的那组人的语音进行训练。从说话的方式考虑:也可以将识别系统分为3类:(1)孤立词语音识别系统:孤立词识别系统要求输入每个单词后要停顿;(2)连接词语音识别系统:连接词输入系统要求对每个词都清楚发音,一些连音现象

32、开始出现;(3)连续语音识别系统:连续语音输入是自然流利的连续语音输入,大量连音和变音将会出现。从识别系统的词汇量大小考虑:也可以将识别系统分为3类:(1)小词汇量语音识别系统:通常包括几十个词的语音识别系统。(2)中等词汇量的语音识别系统:通常包括几百个词到上千个词的识别系统。(3)大词汇量语音识别系统:通常包括几千到几万个词的语音识别系统。随着计算机与数字信号处理器运算能力以及识别系统精度的提高,识别系统根据词汇量大小进行分类也不断进行变化。目前是中等词汇量的识别系统到将来可能就是小词汇量的语音识别系统。这些不同的限制也提高了语音识别系统的困难度。2.5语音识别基本方法一般来说,语音识别的

33、方法有三种:基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络7的方法。基于语音学和声学的方法:该方法起步较早,在语音识别技术提出的开始,就有了这方面的研究,但由于其模型及语音知识过于复杂,现阶段仍没有达到实用的阶段。通常认为常用语言中有有限个不同的语音基元,而且可以通过其语音信号的频域或时域特性来区分。这样该方法分为两步实现:第一步,分段和标号:把语音信号按时间分成离散的段,每段对应一个或几个语音基元的声学特性。然后根据相应声学特性对每个分段给出相近的语音标号。第二步,得到词序列:根据第一步所得语音标号序列得到一个语音基元网格,从词典得到有效的词序列,也可结合句子的文法和语义同

34、时进行。模板匹配的方法:模板匹配的方法发展比较成熟,目前已达到了实用阶段。在模板匹配方法中,要经过四个步骤:特征提取、模板训练、模板分类、判决。常用的技术有三种:隐马尔可夫(HMM)理论、动态时间规整(DTW)、矢量量化(VQ)技术。1、动态时间规整(DTW)语音信号的端点检测是进行语音识别中的一个基本步骤,它是特征训练和识别的基础。所谓端点检测就是在语音信号中的各种段落(如音素、音节、词素)的始点和终点的位置,从语音信号中排除无声段。在早期,进行端点检测的主要依据是能量、振幅和过零率。但效果往往不明显。日本学者Itakura提出了动态时间规整算法(DTW DynamicTimeWarping

35、)。算法的思想就是把未知量均匀的升长或缩短,直到与参考模式的长度一致。在这一过程中,未知单词的时间轴要不均匀地扭曲或弯折,以使其特征与模型特征对正。2、隐马尔可夫法(HMM)隐马尔可夫法(HMM)是70年代引入语音识别理论的,它的出现使得自然语音识别系统取得了实质性的突破。HMM方法现已成为语音识别的主流技术,目前大多数词汇量、连续语音的非特定人语音识别系统都是基于HMM模型来实现的。HMM是对语音信号的时间序列结构建立统计模型,将之看作一个数学上的双重随机过程:一个是用具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与Markov链的每一个状态相关联的观测序

36、列的随机过程。前者通过后者表现出来,但前者的具体参数是不可测的。人的言语过程实际上就是一个双重随机过程,语音信号本身是一个可观测的时变序列,是由大脑根据语法知识和言语需要(不可观测的状态)发出的音素的参数流。可见HMM合理地模仿了这一过程,很好地描述了语音信号的整体非平稳性和局部平稳性,是较理想的一种语音模型。3、矢量量化(VQ)矢量量化(VectorQuantization)是一种重要的信号压缩方法。与HMM相比,矢量量化主要适用于小词汇量、孤立词的语音识别。其识别过程是:将语音信号波形的k个样点的每一帧,或有k个参数的每一参数帧,构成k维空间中的一个矢量,然后对矢量进行量化。量化时,将k维

37、无限空间划分为M个区域边界,然后将输入矢量与这些边界进行比较,并被量化为“距离”最小的区域边界的中心矢量值。矢量量化器的设计就是从大量信号样本中训练出好的码书,从实际效果出发寻找到好的失真测度定义公式,设计出最佳的矢量量化系统,用最少的搜索和计算失真的运算量,实现最大可能的平均信噪比9。核心思想可以这样理解:如果一个码书是为某一特定的信源而优化设计的,那么由这一信息源产生的信号与该码书的平均量化失真就应小于其他信息的信号与该码书的平均量化失真,也就是说编码器本身存在区分能力。在实际的应用过程中,人们还研究了多种降低复杂度的方法,这些方法大致可以分为两类:无记忆的矢量量化和有记忆的矢量量化。无记

38、忆的矢量量化包括树形搜索的矢量量化和多级矢量量化8。神经网络的方法:利用人工神经网络的方法是80年代末期提出的一种新的语音识别方法。人工神经网络(ANN)本质上是一个自适应非线性动力学系统,模拟了人类神经活动的原理,具有自适应性、并行性、容错性、鲁棒性和学习特性,其强的分类能力和输入-输出映射能力在语音识别中都很有吸引力。但由于存在训练、识别时间太长的缺点,目前仍处于实验探索阶段。由于ANN不能很好的描述语音信号的时间动态特性,所以常把ANN与传统识别方法相结合,分别利用各自优点来进行语音识别。2.6语音识别系统基本结构一个完整的基于统计的语音识别系统可大致分为三部分:(1)语音信号预处理与特

39、征提取;(2)声学模型与模式匹配;(3)语言模型与语言处理。语音信号预处理与特征提取:选择识别单元是语音识别研究的第一步。语音识别单元有单词(句)、音节和音素三种,具体选择哪一种,由具体的研究任务决定。单词(句)单元广泛应用于中小词汇语音识别系统,但不适合大词汇系统,原因在于模型库太庞大,训练模型任务繁重,模型匹配算法复杂,难以满足实时性要求。音节单元多见于汉语语音识别,主要因为汉语是单音节结构的语言,而英语是多音节,并且汉语虽然有大约1300个音节,但若不考虑声调,约有408个无调音节,数量相对较少。因此,对于中、大词汇量汉语语音识别系统来说,以音节为识别单元基本是可行的。音素单元以前多见于

40、英语语音识别的研究中,但目前中、大词汇量汉语语音识别系统也在越来越多地采用。原因在于汉语音节仅由声母(包括零声母有22个)和韵母(共有28个)构成,且声韵母声学特性相差很大。实际应用中常把声母依后续韵母的不同而构成细化声母,这样虽然增加了模型数目,但提高了易混淆音节的区分能力。由于协同发音的影响,音素单元不稳定,所以如何获得稳定的音素单元,还有待研究。语音识别一个根本的问题是合理的选用特征。特征参数提取的目的是对语音信号进行分析处理,去掉与语音识别无关的冗余信息,获得影响语音识别的重要信息,同时对语音信号进行压缩。在实际应用中,语音信号的压缩率介于10-100之间。语音信号包含了大量各种不同的

41、信息,提取哪些信息,用哪种方式提取,需要综合考虑各方面的因素,如成本,性能,响应时间,计算量等。非特定人语音识别系统一般侧重提取反映语义的特征参数,尽量去除说话人的个人信息;而特定人语音识别系统则希望在提取反映语义的特征参数的同时,尽量也包含说话人的个人信息9。线性预测(LP)分析技术是目前应用最广泛的特征参数提取技术,许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型,没有考虑人类听觉系统对语音的处理特点。Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱,在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研究成果。实验证明,采用这

42、种技术,语音识别系统的性能有很大提高。从目前使用的情况来看,梅尔刻度式倒频谱参数已逐渐取代原本常用的线性预测编码导出的倒频谱参数,原因是它考虑了人类发声与接收声音的特性,具有更好的鲁棒性(Robustness)。也有研究者尝试把小波分析技术应用于特征提取,但目前性能难以与上述技术相比,有待进一步研究。声学模型与模式匹配:声学模型通常是将获取的语音特征使用训练算法进行训练后产生。在识别时将输入的语音特征同声学模型(模式)进行匹配与比较,得到最佳的识别结果。声学模型是识别系统的底层模型,并且是语音识别系统中最关键的一部分。声学模型的目的是提供一种有效的方法计算语音的特征矢量序列和每个发音模板之间的

43、距离。声学模型的设计和语言发音特点密切相关。声学模型单元大小(字发音模型、半音节模型或音素模型)对语音训练数据量大小、系统识别率,以及灵活性有较大的影响。必须根据不同语言的特点、识别系统词汇量的大小决定识别单元10的大小。以汉语为例:汉语按音素的发音特征分类分为辅音、单元音、复元音、复鼻尾音四种,按音节结构分类为声母和韵母。并且由音素构成声母或韵母。有时,将含有声调的韵母称为调母。由单个调母或由声母与调母拼音成为音节。汉语的一个音节就是汉语一个字的音,即音节字。由音节字构成词,最后再由词构成句子。汉语声母共有22个,其中包括零声母,韵母共有38个。按音素分类,汉语辅音共有22个,单元音13个,

44、复元音13个,复鼻尾音16个。目前常用的声学模型基元为声韵母、音节或词,根据实现目的不同来选取不同的基元。汉语加上语气词共有412个音节,包括轻音字,共有1282个有调音节字,所以当在小词汇表孤立词语音识别时常选用词作为基元,在大词汇表语音识别时常采用音节或声韵母建模,而在连续语音识别时,由于协同发音的影响,常采用声韵母建模。基于统计的语音识别模型常用的就是HMM模型(N,M,A,B)11,涉及到HMM模型的相关理论包括模型的结构选取、模型的初始化、模型参数的重估以及相应的识别算法等。语言模型与语言处理:语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型,语言处理可以进行语法、

45、语义分析。语言模型对中、大词汇量的语音识别系统特别重要。当分类发生错误时可以根据语言学模型、语法结构、语义学模型进行判断纠正,特别是一些同音字则必须通过上下文结构才能确定词义。语言学理论包括语义结构、语法规则、语言的数学描述模型等有关方面。目前比较成功的语言模型通常是采用统计语法的语言模型和基于规则语法结构命令的语言模型。语法结构可以限定不同词之间的相互连接关系,减少了识别系统的搜索空间,这有利于提高系统的识别。第3章 倒谱系数分析原理在语音信号处理的实际应用中,很多场合需要根据语音信号反过来求解声门信号或声道冲激响应。这就需要在知道卷积结果的基础上,利用“解卷”求得参与卷积的各个信号,同态处

46、理是常用的解卷方法。由于语音信号进行同态分析后得到的是语音信号的倒谱参数,因此同态分析也叫倒谱分析12。3.1倒谱分析的优点和缺点对信号进行分析得出它的倒谱参数的过程称为同态处理。对语音信号的某一帧同样可分析出它的短时倒谱参数,总的说来,无论对于语音通信、语音合成或语音识别,倒谱参数所含的信息比其他参数多,也就是语音质量好,识别正确率高。但其缺点是运算量比其他参数大,尽管如此,倒谱分析方法仍不失为一种有效的语音信号的分析方法。3.2复倒谱和倒谱的定义在离散信号x(n)情况下,用z变换表示复倒谱,可以写作 复倒谱可以利用同态系统中一种特定的特征系统来求得,如图所示。为了区别于用一般方法所求得的频

47、谱(spectrum),将spectrum这一词前半部(spec)字母顺序颠倒即成cepstrum,根据词形定名为倒谱。又因频谱一般为复数谱,故称为复倒谱。复倒谱的概念不是唯一的,一般有三种定义。定义如下:其中假设信号为x(n),则复倒谱的Z变换定义: (3-1) 复倒谱的傅里叶变换定义 (3-2) (3-3) (3-4)复倒谱的离散傅立叶变换定义 (3-5)复倒谱的定义可以用图3.1表示ZlnZ-1FTlnIFTDFTlnIDFTx(n)x(t)x(n)图3.1三种复倒谱定义的框图表示x(n)3.3复倒谱与倒谱的关系x(n)ZT ln| |IZT ZT ln IZTc(n)x(n)图3.2复

48、倒谱与倒谱关系框图可以将卷积信号转变为乘积信号,而取对数运算可以将乘法转化为加法,卷积同态处理正是采用这样的一种思路,具体过程如下这里x1(n)和x2(n)分别为声门激励信号和声道冲激响应序列:1 输入信号 (3-6)2 Z变换 (3-7)3 取对数运算(3-8)4 逆Z变换 (3-9)5 为加性信号,经过线性系统的处理得到: (3-10)6 对作Z变换: (3-11)7 指数运算(3-12)8 逆Z变换 (3-13)步骤14称作特征系统,记为;68步骤称为逆特征系统,记为。我们称其中的时域序列为信号序列的“复倒频谱”,简称“复倒谱”,也叫对数复倒谱。即: (3-14)所在的时域被称作复倒谱域

49、。又注意到,有 ; (3-15)如果仅对实部作逆Z变换: (3-16)称为“倒频谱”,简称“倒谱”,也称“倒频”。值得注意的是,倒谱不能通过逆特征系统还原成自身,因为在计算中相位信息丢失了。在绝大多数的应用场合,特征系统和逆特征系统中的正反Z变换都可以用正反离散傅里叶变换来代替,此时倒谱的定义变为 (3-17)3.4 MFCC 3.4.1 MFCC介绍梅尔频率倒谱系数 (Mel-Frequency Cepstral Coefficients,MFCCs)就是组成梅尔频率倒谱的系数。他们派生自音频片段的倒谱(cepstrum)表示(a nonlinearspectrum-of-a-spectru

50、m)。倒谱和梅尔频率倒谱的区别在于,梅尔频率倒谱的频带划分是在梅尔刻度上等距划分的,它比用于正常的对数倒频谱中的线性间隔的频带更能近似人类的听觉系统。这种频率弯曲可以更好的表示声音,例如音频压缩 13 。同时梅尔频率倒频谱系数常利用在辨认语音技术上,例如辨认电话中说话的人的身份。3.4.2 MFCC的原理 在语音识别和说话人识别中,常用的语音特征是基于Mel频率的倒谱系数(mel frequency cepstrum coefficient,MFCC).由于MFCC参数是将人耳的听觉感知特征和语音的产生机制相结合,因此目前大多数语音识别系统中广泛使用这种特征。人的耳朵具有一些特殊的功能,这些功

51、能使得人耳能够从嘈杂的背景噪声中,以及各种变异情况下听到语音信息,这是因为人的内耳基础膜对外来信号会产生调节作用。对不同的频率,在相应的临界带宽内的信号会引起基础膜上不同位置的振动。由此可用带通滤波器组来模仿人耳听觉,从而减少噪声对语音的影响。耳蜗实质上相当于一个滤波器组,耳蜗的滤波作用是在对数频率尺度上进行的,在1000Hz以下为线性尺度,而1000Hz以上为对数尺度,这就使得人耳对低频信号比对高频信号更敏感。根据这一原则,研究者根据心理学实验得到了类似于耳蜗作用的一组滤波器组,就是Mel频率滤波器组。对频率轴的不均匀划分是MFCC特征的特点。将频率变换到Mel域后,Mel带通滤波器组的中心

52、频率是按照Mel频率刻度均匀排列的13。设语音信号的DFT为 ; (3-18)其中x(n)为输入的语音信号, N表示傅立叶变换的点数。3.4.3 Mel频率倒谱系数提取过程人的听觉系统是一个特殊的非线性系统,它响应不同频率信号的灵敏度是不同的,基本上是一个对数的关系。MFCC是一种能够比较充分利用人耳感知特性的参数。MFCC和线性频率的转换关系如下: (3-19)MFCC参数是按帧计算的,其提取过程可以用框图表示(见图3.3)。因为不同的说话人声道具有区别于他人的特异性特征,所以在实际信号分析中常采用预加重技术,即在对信号取样之后,插入一个一阶的高通滤波器,这样,就加强了声道部分的特征,便于对

53、声道参数进行分析;Mel滤波的作用是利用同人耳听觉特性相似的三角滤波器组对语音信号的幅度平方谱进行平滑;对数操作(lg)的用途至少有两点,其一是压缩语音谱的动态范围,其二是将频域中的乘性成分变成对数谱域中的加性成分,以便滤除乘性噪声;离散余弦变换(DCT)主要用来对不同频段的频谱成份进行解相关处理,使得各向量之间相互独立。DFT/FFT预加重、分帧、加窗Mel频率滤波器组F(m) *s(n) *Log对数能量DCT求倒谱x(n) *X(k) *c(n) *图3.3 MFCC参数提取基本流程3.4.4 MFCC算法流程设某语音信号为x(n) ,则算法处理流程为1)预加重,其中k为预加重系数,一般

54、取0.95;2)加窗(hamming窗),帧长为N;3)DFT变换;4)设计一个具有 M个带通滤波器的滤波器组,采用三角滤波器,中心频率从0F/2之间按Mel频率分布;5)计算每个滤波器组输出的对数能量;6)求得 MFCC特征参数。3.4.5 MATLAB中的设计与实现图3.2 采样点与幅度 本次设计采用了汉明窗函数来对语音分帧,每帧的长度为256,步长为128,即每相邻两帧之间有半帧是重叠的。计算中利用了Matlab中汉明窗函数(hamming)。采用Matlab的语音分析工具箱Voice-Box,可以很容易地对语音进行分帧处理。其分帧函数调用为:f=enframe(X,hamming(25

55、6),128)。本文应用了24个三角形滤波器序列。除了提取MFCC参数外,为描述语音帧间的相关性,计算中引入了一阶差分MFCC的特征参数,并且与MFCC参数一起构成语音的特征参数。 图3.2以8000HZ为采样频率,将信号幅度作为特征参数来区分不同的信号。由图可知,信号幅值在-15处上下波动,与此同时,随着采样点的增多,信号幅值的上下波动减小,可以预测,在无穷远处,信号幅值将在-15处固定不变。由于该信号为幅值不等、频率不等的随机信号,故在时间轴上幅值有负值。图3.3 维数与幅值差的关系如图3.3所示:经过等时间间隔进行采样,采样频率为8000HZ,取相邻采样点的幅值,并做一阶差分,就可得到此

56、图。由仿真结果可知,随着信号采样点数量的增多,相邻点幅值差不断减小,可以预测,当采样点取无穷多时,其相邻幅值差必趋于零,这与实际理论以及客观事实相符合,故该仿真结果良好。由于MFCC参数是对人耳听觉特征的描述,因此,可以认为,不同声纹的MFCC参数距离,能够代表人耳对两个语音听觉上的差异,可以为声纹的识别提供可靠的依据。用这些系数组成语音信号的特征矢量,就可以建立声纹的模型参考集,进行声纹识别。它的提取与一般倒谱的提取过程的差别就在于:MFCC模拟了人的听觉特性,在其求解过程中,FFT的谱线在频率轴上是不等间隔分布的,而在Mel频率轴上是等间隔分布的,在有噪声和频谱变形的情况下,采用MFCC作

57、为特征参数识别,其正确率比用LPC等作为特征参数有比较大的改善。第4章 语音倒谱的应用表征一个人声音个性的参数主要有反映声道特性的共振峰频率和反映声门特性的基音参数。为了能够提取出这些参数,就要借助一些工具,本节通过MATLAB完成倒谱在语音处理的各方面应用。4.1倒谱的MATLAB实现本实验所用的语音样本是Cooledit在普通室内环境下录制的一段语音,采样频率为8kHz,单声道。MATLAB仿真结果如下:(程序见附录A) 图4.1倒谱程序仿真结果图4.1是取一段语音的倒谱图,第一幅是这段语音的时域波形图,共取400点语音,在倒谱图上会看到许多峰值,这些峰值都与基音周期有关,分别是一次谐振,

58、二次谐振4.2倒谱在同态信号处理系统的应用同态信号处理也称为同态滤波,实现将卷积关系和乘积关系变换为求和关系的分离处理,将非线性信号处理变为线性信号处理的过程。线性系统特征系统D*逆特征系统D*-1y(n) *+x(n) *图4.2常见的同态信号处理系统按照被处理的信号来分类,大体上可以分为乘积同态信号处理和卷积同态信号处理。由于语音信号可以视为声门激励信号和声道响应信号的卷积结果。我们仅讨论卷积同态信号处理系统的问题。(1)特征系统D* 完成将卷积信号转化为加性信号的运算。 (4-1) (4-2) (4-3) (4-4)(2)第二个子系统对加性信号进行所需要的线性处理(满足线性叠加原理等)

59、(4-5)(3)第三个子系统是逆特征系统D*-1,使其恢复为卷积性信号。由于对其进行如下处理: (4-6) (4-7) (4-8)(4)特征系统D*和逆特征系统D*-1的区别a.第一步和第三步的运算相同。b.第二步不同,前者是对数运算,后者是指数运算。(运算方式如图4.3) Z exp Z-1 Z ln Z-1图4.3 特征系统与逆特征系统的框图表示4.3倒谱在基音检测方面的应用基音是语音信号的一个重要参数,在语音产生的数字模型中也是激励源的一个重要参数,准确地检测语音信号的基音周期对于高质量的语音分析与合成、语音压缩编码、语音识别和说话人确认等具有重要的意义。 1 基音检测的概念基音是指发浊

60、音时声带振动所引起的周期性,而声带振动频率的倒数就是基音周期。基音周期具有时变性和准周期性,它的大小与个人声带的长短、厚薄、韧性和发音习惯有关,还与发音者的性别、年龄、发音时的力度及情感有关,是语音信号处理中的重要参数之一,它描述了语音激励源的一个重要特征。基音周期的估计称为基音检测(Pitch Detection),基音检测的最终目标是找出和声带振动频率完全一致的基音周期变化轨迹曲线,如不可能则找出尽量相吻合的轨迹曲线。然而由于人的声道的易变性及其声道特征的因人而异,而基音周期的范围又很宽,且同一个人在不同情态下发音的基音周期也不同,加之基音周期还受到单词发音音调的影响,故实际中的基音周期的

61、精确检测是一件比较困难的事情。然而,尽管语音信号的基音检测有许多困难但由于它在语音信号处理中的重要作用,促使广大学者争相涉足。2 基音的周期基音是指发浊音时声带振动所引起的周期性,而基音周期是指声带振动频率的倒数。基音周期是语音信号最重要的参数之一,提取该参数是语音信号处理中一个十分重要的问题。对于汉语这种有调语音,基音的变化模式称为声调,它携带着非常重要的具有辨意作用的信息,有区别意义的功能。根据加窗的短时语音帧来估计基音周期,在语音编解码器,语音识别,说话人确认和辨认,对生理缺陷人的辅助系统等许多领域都是重要的一环。 3 基音检测的难点自进行语音信号分析研究以来,基音检测一直是一个重点研究的课题,很多方法已被提出,然而这些方法都有它们的局限性。迄今为止,尚未找到一个完善的可以适用于不同的说话人,不同的要求和环境的基音检测方法。基音检测的主要难点表现在:1)语音信号变化十分复杂,声门激励的波形并不是一个完全的周期序列。在语言的头,尾部并不具有声带振动那样的周期性,对有些清浊音的过渡帧很难判定它应属于周期性或非周期性,从而就无法估计出基音周期。2)要从语音信号中去除声道的影响,直接取出仅与声带振动有关的声源信息并非易事。而声道共振峰有时会严重影响激励信号的谐波结构

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!