基于声纹的说话人特征识别毕业论文

上传人:仙*** 文档编号:146226745 上传时间:2022-08-30 格式:DOC 页数:68 大小:1.66MB
收藏 版权申诉 举报 下载
基于声纹的说话人特征识别毕业论文_第1页
第1页 / 共68页
基于声纹的说话人特征识别毕业论文_第2页
第2页 / 共68页
基于声纹的说话人特征识别毕业论文_第3页
第3页 / 共68页
资源描述:

《基于声纹的说话人特征识别毕业论文》由会员分享,可在线阅读,更多相关《基于声纹的说话人特征识别毕业论文(68页珍藏版)》请在装配图网上搜索。

1、基于声纹的说话人特征识别JIU JIANG UNIVERSITY 毕 业 论 文(设 计) 题 目 基于声纹的说话人特征识别 英文题目 Speaker feature recognition based on the voiceprint 院 系 专 业 姓 名 年 级 指导教师 2013年6月 61九江学院学士学位论文摘 要说话人识别是一项根据语音波形中反映说话人生理和行为特征的语音参数,而自动识别说话人身份的技术。它也常被人们称为声纹识别技术,是生物认证技术的一种,其基本思想就是运用某种匹配方法进行特征识别,从而确定说话人的身份。目前已知的语音特征包括基音周期、语谱图、自相关系数、能量、平

2、均幅度、过零率、共振峰、线谱对、线性预测系数(LPC)、线性预测倒谱(LPCC)、Mel频率倒谱(MFCC)等。 本文介绍了说话人识别的概念、原理及其识别实现的方法,指出了说话人识别技术的应用前景。通过在Matlab7.0平台上对语音的基音周期、线性预测倒谱和Mel频率倒谱等特征参数进行提取、分析、对比、识别实现一个简单的说话人识别系统,实验结果表明实验正确、有效。关键字:说话人识别;特征参数;基音周期;线性预测倒谱;Mel频率倒谱 Speaker feature recognition based on the voiceprintAbstractSpeaker recognition is

3、 the voice parameters in a speech waveform which reflects the speakers physiological and behavioral characteristics, and automatic identification technology to speaker identity. It is also often referred to as the voiceprint recognition technology, a biometric authentication technology.The basic ide

4、a is to use a matching method for feature recognition, in order to determine the identity of the speaker. Currently known voice features include pitch, spectrogram, since the correlation coefficient, energy, average magnitude, the zero crossing rate, formant, the line spectrum of the Linear Predicti

5、on Coefficient (LPC), Linear Prediction Cepstrum (LPCC) , Mel Frequency Cepstral (MFCC). This article describes the speaker identification concepts, principles and implementation methods of identification, and pointed out the prospect of speaker recognition technology. By the Matlab7.0 platform, voi

6、ce pitch, linear prediction cepstrum and Mel Frequency inverted spectra characteristic parameter extraction, analysis, contrast, identify a simple speaker recognition system, experimental results show that the experiment is correct, effective .Key Words:Speaker Recognition;Feature Parameter;Pitch;Li

7、near Prediction Cepstral Coefficient;Mel Frequency Cepstral Coefficient目 录摘 要IAbstractII目 录III引 言1第一章 说话人识别研究31.1说话人识别研究的意义31.2说话人识别应用领域31.3说话人识别的技术优势41.4说话人识别研究的难点和热点51.4.1说话人识别技术研究的难点51.4.2说话人识别研究的热点71.5影响说话人识别性能的因素71.6论文的内容安排9第二章 说话人识别的基本介绍102.1语音的基础知识102.1.1语音的产生原理102.1.2语音产生模型102.1.3语音信号的预处理技术1

8、22.2说话人识别的分类142.3说话人识别的基本原理162.4说话人识别的常用特征182.5说话人识别系统的结构框架182.6说话人识别的主要模型202.7说话人识别系统评价标准22第三章 特征参数的提取243.1 倒谱243.1.1 同态处理基本原理243.1.2 复倒谱和倒谱253.2线性预测倒谱(LPCC)的提取253.2.1 LPCC的介绍263.2.2 LPCC的提取过程273.2.3 Matlab中实现LPCC的提取273.3 Mel频率倒谱(MFCC)的提取283.3.1 Mel频率介绍283.3.2 MFCC提取过程293.3.3 Matlab中实现MFCC的提取313.4

9、基音周期的提取333.4.1基音周期的介绍333.4.2短时自相关函数343.4.3 MATLAB中实现基音周期的提取35第四章 说话人识别系统的实现364.1 实验实现的环境364.2 WAV声音文件格式分析364.3实验平台的选择374.4录音374.5 预处理和端点检测374.6实验所用语音库的建立384.7 系统实验框图和步骤394.8实验结果和分析414.8.1实验结果414.8.2 结果分析464.9 小结46参考文献47附 录48致 谢62九江学院学士学位论文引 言语音是人类交流信息的基本手段。随着信息科学飞速发展,如今语音信号处理技术已经拓展为语音学与数字信号处理技术相结合的交

10、叉学科,它和认知科学、心理学、生理学、语言学、计算机科学和模式识别与人工智能等学科联系紧密。语音信号处理技术的发展依赖这些学科发展,而语音信号处理技术的进步也会促进这些学科的进步。因此,语音信号处理成为目前发展最为迅速的信息科学研究领域中的一个重要分支。语音信号的研究一般都基于语音信号的数字表示,因此语音信号的数字表示是进行语音信号数字处理的基础。语音信号的数字表示基本上可以分为两大类:波形表示和参数表示。波形表示仅仅是通过采样和量化的过程保存模拟语音信号的“波形”,而参数表示则是把语音信号表示成某种语音产生模型输出。为了得到参数表述,首先必须对语音进行采样和量化,然后再进一步处理得到语音产生

11、模型的参数。语音模型的参数一般可分为两大类:一大类是激励参数;另一大类是声道参数。对语音处理的基础理论及各种处理算法的研究主要包括以下两个方面:1.从语言中产生和听觉感知来研究语音产生的研究涉及大脑中枢的言语活动如何转换成人发声器官的运动,从而形成声波的传播。听觉感知的研究涉及人耳对声波的收集波并经过初步处理后转换成神经元的活动,然后逐级传递到大脑皮层的语音中枢。2.将语音作为一种信号来处理早期形成的数字滤波器、FFT等数字信号处理方法广泛应用在语音信号处理领域,后期出现的线性预测编码技术成为语音信号处理最有效的办法之一。到了八十年代,出现了分析合成法、码激励线性预测(CELP)、矢量量化(V

12、Q)以及马尔可夫模型(HMM)等一系列算法和模型在很大程度上推动了语音编码和语音识别技术的研究。语音信号处理虽然包括了语音通信、语音合成和语音识别等方面的内容,但其前提是对语音信号进行分析。只有将语音信号表示成其本质特征的参数,才有可能利用这些参数进行高效的语音通信,才能建立用于语音合成的语音库,也才可能建立用于识别模版或知识库。而且语音合成的音质好坏、语音识别率的高低,都取决于对语音信号分析的准确性和精度。例如,利用线性预测分析来进行语音合成,其先决条件是要先用线性预测方法分析语音库,如果线性预测分析获得的语音参数较好,则用此参数合成的语音音质就好。有如,利用带通滤波器组法来进行语音识别,其

13、先决条件是要弄清楚语音共振峰的幅值、个数、频率变化范围及其分布情况。因此,应先对语音信号进行特征分析,得到提高语音识别率的有用数据,并据此来设计语音识别系统的硬件和软件。根据所分析的参数不同,语音信号分析可分为时域、频域、倒谱域等方法。进行语音信号分析时,最先接触到的、最直观的是它的时域波形。语音信号本身就是时域信号,因而时域分析是最早使用的应用范围最广的一种方法。时域分析具有简单直观、清晰易懂、运算量小、物理意义明确等优点;但更为有效的分析多是围绕频域进行的,因为语音中最重要的感知特性反映在其功率谱中,而相位变化只起着很小的作用。常用的频域分析方法有带通滤波器组方法、傅里叶变化法和线性预测分

14、析法等。频谱分析具有如下有点:时域波形较容易随外界环境变化,但语音信号的频谱对外界环境变化具有一定的顽建性。另外,语音信号的频谱具有非常明显的声学特征,利用频域分析获得的语音特征具有实际的物理意义。如共振峰参数、基音周期等参数。倒谱域是将对数功率谱进行反傅里叶变换后得到,它可以进一步将声道特征和激励特征有效的分开,因此可以更好地揭示语音信号的本质特征。语音信号处理的主要应用包括:语音识别、语音合成、说话人识别、语音编码、语音增强等几个分支。近年来,各个分支都取得了很大的进步,已经深入应用到通信、办公自动化、远程控制、声控电话拨号、计算机语音应答、机器人听觉与口语系统等使用系统中。本文要进行的是

15、语音信号处理在说话人识别中的应用,以完成说话人识别系统的功能实现。 人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理过程,人在讲话时使用的发生器官舌头、牙齿、喉头、肺、鼻腔在尺寸和形态方面每个人的差异很大,所以任何两个人的声纹图谱都有差异。这就使得每个人的语音声学特征既有相对稳定性,又有变异性,不是绝对、一成不变的。这种差异可能来自生理、病理、心理、模拟、伪装,也可能与环境干扰有关。尽管如此,由于每个人的发音器官都不尽相同,因此在一般情况下,说话人的鉴定仍能区别不同的人或识别是否是同一个人的声音,从而进行个人身份识别。说话人识别是一项根据语音波形中反映说话人生理和行为特征的语音参数,而

16、自动识别说话人身份的技术,主要包括特征提取和模式匹配两个部分。这项技术自研究发展至今,以其特有的方便性、经济性、安全性和准确性等优点受到特别关注,其研究和应用系统的开发具有重要的现实意义。作为生物特征识别技术的一种,说话人识别技术在声音拨号、电话银行、电话购物、数据库访问、信息服务、语音电子邮箱、安全控制、计算机远程登陆等互联网及通信领域得到广泛应用;在呼叫中心应用上,说话人识别技术同样提供更加个性化的人机交互;在军事领域,说话人识别技术用于战场监听,以辨认出敌方的指挥员;在生物识别技术领域中,说话人识别技术日益成为人们日常生活和工作中重要且普及的安全验证方式。第一章 说话人识别研究 说话人识

17、别(Speaker Recognition,SR)技术,也常被人们称为声纹识别(Voiceprint Recognition,VR)技术,是生物认证技术的一种。其基本思想就是运用某种匹配方法进行特征(本文指说话人的语音特征)识别,从而确定说话人的身份。1.1说话人识别研究的意义在生物学和信息学高度发展的今天,生物识别技术已经越来越广泛地应用于人们的工作、学习和生活中,作为一种便捷和先进的信息安全技术,它能满足现代社会对于身份鉴别的准确性、安全性和实用性的更高要求。生物识别技术的崛起得益于信号检测与处理、模式识别、人工智能、机器学习等理论与技术的发展,由于它为身份识别提供了一个可靠的解决方案,其

18、应用前景广阔,并能为构筑21世纪基于自主研究开发的国家信息安全体系提供强有力的技术支持。生物识别技术是一种根据人体自身的生理特征(指纹、手形、脸部、DNA、虹膜、视网膜、气味等)和行为特征(声音、签名、击键方式等)来识别身份的技术。它是集光学、传感技术、红外扫描和计算机技术于一身的第三代身份验证技术,作为一种更加便捷、先进的信息安全技术,生物识别技术将全球带进了电子商务时代。说话人识别作为生物识别的一种,是通过由计算机利用语音波形中所包含的反映特定说话人生理、心理和行为特征的语音特征参数来实现自动识别说话人身份的。由于每个人的声音特征都是唯一的,而且几乎很少会发生变化的。说话人识别技术正式根据

19、这一特性,利用语音信号中说话人特有的“语音个性”,而不考虑语音中的字词意思,通过说话人识别系统对用户进行身份识别。在当今社会,说话人识别几乎可以应用到人们的日常生活的各个角落,成为人们生活中和工作中重要且普及的安全验证方式。1.2说话人识别应用领域由于与其他生物识别技术相比,说话人识别技术具有不可遗忘和忘记、不需记忆、使用方便等优点,同时说话人识别还具有更为准确、经济及可扩展性良好等众多优势,因此,说话人识别技术在以下许多方面得到广泛应用。1.用于银行、证劵系统目前电话银行,炒股等业务不断增加,为了进一步提高这些实时性高、风险性高的业务操作的安全性,可采用说话人识别技术并结合设定的密码及其他安

20、全措施进行真实、安全、有效地用户身份辨认,从而实现方便、快捷、安全有效地操作。2. 网络安全在日益频繁的电子商务、电子购物、国际贸易领域中,越来越多的人们依赖于网上各种口令和密码,随着密码在不同场合的频繁使用,这种非特征性的依赖缺陷安全缺陷,也越发明显。同时,记忆并定期修改众多的密码是非常让人头疼的事情。在说话人识别过程中,每次发音都可由随机产生的提示文本来控制,可有效的防止身份复制和账号、密码的盗窃,并且用户不需要记忆和修改任何东西。因此,在网上交易时采用说话人识别技术要比其他生物识别技术更具有优势,且操作方便、简洁,很容易为广大计算机使用者接受。3. 语音检索对于大量的录音素材,将说话人识

21、别技术与连续语音识别技术相结合,可以检索出其中我们感兴趣的特定人所说的内容。4. 用于身份鉴别利用不同人的声纹特征进行身份鉴别,为用户设计声纹打卡系统、声纹锁、声控防盗门、声控车载启动系统等等。如国内的“得意身份证”、“昭德数字”声纹门禁系统等。5. 用于军事安全随着现代信息技术的发展,现在各国的国防部门也已经逐步采用声纹信息管理系统,并将其应用到军事命令、机密情报等重要信息的获取和鉴别中。6. 医学应用说话人识别的主要依据是说话人声道结构的差异,从而可知说话人识别技术的研究和医学中生理学的发展是相互促进的,一方面生理学和解剖学的进展可以促进说话人识别问题的研究,另一方面也可借助说话人识别技术

22、进行声道特性的研究。例如为响应病人请求的命令,设计一个针对患者的说话人识别系统,可方便地实现患者需求的控制等。7.用于司法取证、刑事案件侦破对于各种电话勒索、绑架、电话人身攻击等案件,说话人识别技术可以在一段录音中查找出嫌疑人,帮助对嫌疑人的查证,1971年美国警方就利用此技术协助破案。另外,现在很多法庭已经使用声纹作为鉴别犯罪的依据。当然,这也需要防止发音伪装的问题。1.3说话人识别的技术优势生物识别技术是目前最为方便、安全和环保的识别技术,具有不会遗失、无需记忆等优点。此外,与其他生物认证技术相比,说话人识别技术还有以下几个方面的优势:(1) 用户接受程度高以说话人的声音作为特征进行识别,

23、用户不需要记住复杂、繁多、易忘的密码,不需要随时准备着携带智能卡、钥匙之类的东西,更不需要像其他生物识别技术一样,刻意的用手触摸传感器或把眼睛凑向摄像头,是一种比较自然的识别技术。(2) 设备成本低说话人识别是一种比较经济的识别方式,一方面它所用的设备(如PC机、麦克风等)成本要求较低;另一方面声音的采样、量化芯片的要求也不高。而如虹膜、视网膜等技术,虽然识别精确度很高,但设备造价也很高,性价比不高。(3) 可用于移动传输中随着信息智能化发展,语音特征将成为嵌入式系统和手持移动设备最好的交互手段的可能性越来越明显,因此,以声音作为身份识别特征的技术也越来越受到重视,说话人识别技术也越来越重要。

24、(4)可实现远程操作适合远程身份确认,通过麦克风或电话、手机就可以由网络(通讯网络或互联网络)实现远程登陆。(5)实现算法简单声纹辨认和确认的算法复杂度低,配合一些其他措施,如通过语音识别进行内容鉴别等,可以提高准确率。(6)隐私保护性强说话人识别技术采用语音特征进行身份确认,只需提供语音信号,不涉及隐私问题,用户无任何心理障碍。1.4说话人识别研究的难点和热点1.4.1说话人识别技术研究的难点尽管对说话人识别的研究已长达半个世纪,说话人识别技术也已从实验阶段走向市场,进入是实用阶段。但要使其普遍,并像指纹识别一样成为十分可靠的生物特征识别技术,得到广泛应用,还有许多尚需进一步探索研究的难题,

25、主要有以下几个方面:1 .尚未找到简单可靠的说话人语音特征参数。说话人语音信号中既包含了说话人语音内容的信息,也包含了说话人的个人信息,是语义特征和说话人特征的混合体。目前还没有很好的方法把说话人的个性特征从语音特征中分离出来,也没找到简单的声学特征参数能够可靠的识别说话人。2. 语音信号的变异。即对于同一说话人和同一文本,语音信号也有很大的变异性。因为说话人的发音常常与环境、说话人的情绪、说话人的健康状况有密切关系,说话人的语音特征不是静态的、固定不变的,它具有时变特性。会随时间、年龄和健康状况的变化而变化;另外,传输语音的通信通道的时变效应问题也是语音信号产生变异的重要方面。语音信号的变异

26、性从本质上说是说话人特征空间发生移动,说话人模式发生变异,从而增加识别过程中的不确定性。说话人识别中存在的噪音、多通道、情感等热点研究方向都属于这方面。3. 声音容易被录音模仿。如何处理故意伪装问题,在法庭的说话人识别应用中,这个问题具有特殊的重要性 。比如在法庭查证的识别应用中,罪犯可能会伪装他们的声音或模仿另一个人的声音来逃避罪名。4. 特征空间有限。在汉语语音识别中,全体音节的集合很小,其数目仅几百个,而全体汉语说话人却有14亿多,对于由同一语音信号组成的特征空间,语音识别要将其划分为M个子空间,M为音节个数,而说话人识别要将其划分为N个子空间,N为说话人个数,由于N远大于M,使得识别说

27、话人要比识别所说的内容复杂,而且当N很大时,说话人识别还在理论上存在将有限特征空间进行无限划分的问题,这是说话人识别所面临的新问题。5. 噪声问题。鲁棒性问题一直是说话人识别研究的难点,像用麦克风录音时会产生低频干扰噪声,而在移动信道中传送语音时也会有加性或卷积噪声产生,这些噪声都会使得得到的信号产生失真,最终降低识别率。目前说话人识别中存在的去噪、多通道等研究热点都属于这个方面的改善。另外,说话人识别还存在以下一些实用性的问题需要在将来的研究中加以考虑和解决。1. 说话人识别系统设计的合理化及优化问题。即在一定的应用场合下对系统的功能和指标合理定义、对使用者实行明智的控制以及选择有效而可靠的

28、识别方法等问题,使得既能正确识别说话人,又能拒绝模仿者。2. 如何处理长时间和短时说话人的语音波动,如何区别有意模仿的声音,这点对于说话人识别在司法上应用尤为重要。如何将语音识别和说话人识别有机的结合起来,对于这一点,指定文本型的说话人识别是一个有益的尝试。3. 说话人识别系统的性能评价问题。需要建立与试听人试验对比的方法和指标;由于目前对于说话人识别的性能尚无一致的评价方法,所以这一问题的解决还需长期的努力。4. 可靠性和经济性。和语音识别系统相比,说话人识别的使用者要多几个数量级,例如有信用卡的人可以是几百万或上千万,当然不一定所有的都用同一个系统来处理,但是在把说话人识别系统用于社会以前

29、,必须现设想万位以上的说话人进行可靠的实验。同理,在经济性方面,每一个说话人的标准模型必须使用尽量少的信息,因此样本和特征量的精选也是亟待解决的。说话人识别的关键步骤可分为:语音的预处理、语音特征提取、识别系统模型的建立、根据相似性准则进行判定等。想要提高说话人识别的正确率,应从以上几个方面进行研究。其中语音特征提取和识别系统模型的建立是说话人识别技术研究的重点。上述提到的问题主要是这两方面引起的,其系统的优劣性也往往取决于这两方面。识别模型常用的是高斯混合模型(GMM)、矢量量化模型(VQ)和隐马尔可夫模型(HMM),已有实验表明,对于相同的特征参数的与文本无关的说话人识别系统,GMM的识别

30、率可以达到93.6%,性能也是最好的,其次是HMM,而VQ的识别率最高仅为86.2%,模型处理的主要问题集中在算法的准确度和复杂度上。此外,由于目前大多数研究的说话人识别过程都认为相邻帧间的特征参数是相互独立的,所以如何寻求新的更具个性和更强鲁棒性的动态语音特征,或者对现有的特征参数进行优化的选择、补偿等,仍然是说话人识别技术领域中的研究热点。1.4.2说话人识别研究的热点由于应用的需求和数字信号处理技术的飞速发展,说话人识别的研究越来越受到人们的重视。在国际声学、语音和信号处理会议(International Conferrence on Acoustic Speech and Signal

31、 Processing,ICASSP)论文集中,每年都有关于说话人识别的专题。说话人识别的研究已经逐渐从实验室走向实际应用。目前,说话人识别的研究主要集中在如下几个方面:1. 语音特征参数的提取和混合。语音特征参数对说话人识别系统的性能至关重要,虽然倒谱参数得到广泛应用,但语音特征参数仍是一个研究热点。寻找新的有效的语音特征参数以及已有特征参数的有效组合是语音特征参数研究的两个方向。2. 在模型训练和识别技术方面:HMM模型与其他模型结合,改善说话人识别系统的性能。如HMM模型与神经网络,HMM模型与支持向量机SVM(Support Vector Machine)的结合都可以有效地改善系统的性

32、能。高斯混合模型方面:模型参数估计方法的改进,减少模型运算量及算法复杂度的研究。矢量量化方面:量化方法的鲁棒性及改进算法。神经网络方面:大人群识别,级联神经网络。3. 带噪音,特别是电话和移动通信环境中的语音的说话人识别是现今说话人识别的一个热点。4. 文本无关的说话人识别技术是当今说话人识别研究的又一个热点。1.5影响说话人识别性能的因素说话人识别技术发展至今已经变的相当成熟,而且在国际上已经有了一些成功的应用。但是在实际的问题中,说话人识别技术仍然有一些弱点。人们常认为说话人识别的难点在于有些人的声音非常相似,以至于有时连我们自己都会弄错。不过这只是原因之一,说话人识别技术中的难点并不局限

33、于此。最关键的问题是语音信号本身的多变性,而不是相似性。也就是说,难度在于要从多变的语音信号中找出每个说话人的特有特征。语音信号的变化是如此错综复杂,其原因之一就在于说话人自身语音的变化。人与人之间声音存在差异使得自动说话人识别技术能够成为可能,但同时也正是因为人的语音具有多变性使得这个问题变得复杂起来。语音是人的固有生物特征,但同时也是人的一种行为,它同时具有行为和属性两种特点,个人的属性可以不变,而行为却是每一次都不完全相同的。语音产生的变化有些是刻意为之,有些则不然。仅仅依靠发音器官的特点而提取出来的特征不足以表示每个说话人的特点。由于健康状况、紧张程度、不愿意合作等生理和心理因素会大大

34、降低说话人识别系统的辨识率。除了说话人自身的因素以外,还有其他方面也会造成说话人识别系统性能表现不稳定。如噪声、传输信道匹配、系统使用时间长短的。1. 噪声噪声的影响是语音信号处理中最常见也是影响系统性能最关键的因素之一。R.C.Rose等人证明,通常的说话人识别系统在噪声干扰情况下识别效果会严重下降。DOBTOTH等学者从电话交换机上获取的语音信号表示,39.3%的对话过程中都含有其他噪声信号干扰。因此如何解决噪声条件下的说话人识别是第一重要问题。通常研究者会从两个方面来解决:一是如何在噪声环境下提高识别率,另外就是训练时和识别时噪声环境不同的情况下如何保证识别效果。目前多数说话人识别系统都

35、是在实验室里完成的,其训练和识别的数据结果在实验环境中得到。实际情况中像实验室那种相对安静理想的环境并不是很多,由此带来的问题就是容易造成训练环境和识别环境的不匹配。现有的识别系统在噪声环境中其实别效果下降的很严重。语音增强技术属于信号级抗噪处理方法,假设在加性噪声环境下,可以根据噪声的短时平稳特征,通过谱减法来处理带噪语音。在进行语音信号提取之前,将语音中噪声部分有效的去除,使去噪后的语音背景和信噪比与训练语音相似,特征提取的时候就能得到较为理想的语音特征。提取对噪声不敏感的语音特征参数属于特征级抗噪处理方法,如果所提取的特征对噪声免疫,这种语音特征就有了抗噪声的能力。语音信号处理技术和物理

36、学、心理学、医学都有密切联系,任何一门学科的发展都有可能推动语音信号处理技术的进步。随着人们对人耳听觉系统生理特征的认识,这两年语音识别领域提出了一些比较新的抗噪声语音特征,比如基于听觉掩蔽特性的特征参数、基于人耳听觉响度特性的特征参数、基于人耳听觉子带特征的提取。2. 传输信道匹配问题在远距离通信系统中通常会遇到此类问题。不同的麦克风,不同的采用精度,不同的传输信道(如固定电话和无线移动通信)都会带来信道匹配的问题。可以说,只要系统存在失真,那么信道不匹配问题就会一直存在。解决这一问题的方法通常是采用补偿技术。目前补偿技术主要从三个方面考虑,即分别从特征域、模型域和似然比得分进行模型补偿。3

37、.系统使用时间通常实验室中的说话人识别系统都要求使用者花费大量的时间来训练和识别,以获取高识别率,或者通过大容量的语音数据库来做到这一点。近年来流行的GMM,HMM等基于统计模型的说话人识别系统都存在这样的问题。在实际使用时,在实际使用时,这样的说话人识别系统据需要用户花费更多的时间和耐心来完成训练和识别。实际使用证明,用户通常会对超过30秒的训练过程感到厌烦,在这种情况下,很难保证获得足够的、高质量的训练数据。识别精度也就更无从谈起。因此更短的系统使用时间也应该是研究者追求的目标之一。1.6论文的内容安排全文分为四章,按以下顺序组织:第一章 概述了说话人识别研究的意义、应用领域、技术优势和研

38、究的热点、难点。第二章 介绍了说话人识别的基本原理和说话人识别系统的结果、模型。第三章 对本文所采用的特征参数-线性预测倒谱、Mel频率倒谱和基音周期进行介绍,以及给出在MATLAB中对这些参数提取的方法。第四章 介绍了说话人系统的实现过程,并对实验结果进行分析总结。第二章 说话人识别的基本介绍2.1语音的基础知识在前面我们提到过一些语音的相关知识,这里我们将继续并更加详细具体的谈到语音方面的知识。2.1.1语音的产生原理语音是由发声器官的运动产生的,发声器官主要有三个子系统构成:肺、气管、支气管构成的次生门系统,声带以及位于声带以上的由咽喉、口咽、口腔组成的声道,鼻咽和鼻腔组成的鼻道。喉中有

39、声带,决定基音的频率。声道始于声门止于嘴唇,是气流传输的通道。鼻道则从小舌开始到鼻道孔止。当鼻道下垂时,鼻道和声道发生耦合而产生语音中的鼻音。这些结构对每个人来说都是有差异的,由此造成了每个人的生源普、基音频率、共振峰频率以及带宽的不同。产生语音的能量来源于正常呼吸时肺部呼出的稳定气流,喉部的声带既是阀门,又是振动部件。说话人声门气流冲击声带振动,然后通过声道相应变化成语音。发不同的声音时,声道的形状不同,因此听到不同的声音。声带的运动还只能控制进入口腔的气流,而音色是有口腔的形状,如动作快慢、开口大小、衰减时间等决定的。短促的气流使声音短脆而明快,长的气流使声音柔和而浑厚。要使人发出的声音丰

40、富多彩,还得借助口腔和鼻腔,把从声门冲出的气流形成声音。而要发出构成语音的音素,还需靠唇、齿、舌、腭。尽管世界上有着上千种不同的语音,构成语音的音素却是大同小异。声带不振动时产生的音为清音,它是空气通过声道时,受声道某些部分的挤压而引起的,一般分为摩擦音和爆破音。清音具有一定的随机性。研究表明,发清音时声道被阻形成湍流,所以可被模拟成随机白噪声。声道是一个分布式参数系统,它是一个谐振腔,因而具有许多谐振频率。称为共振峰频率或简称共振峰。声道的频谱特性主要反映出这些共振峰的不同位置以及各个峰的频率宽带。共振峰及其带宽取决于声道的形状和尺寸,因而不同的语音对应于一组不同的共振峰参数。2.1.2语音

41、产生模型建立语音信号的数学模型对于语音处理具有重要意义。在研究了语音的产生原理后,下面就可以建立一个离散时域的语音信号产生模型。说话人发音信号的等效数字模型可由图2-1所表示,它包括三个部分:激励源、声道模型和辐射模型。激励源、声道模型和辐射模型构成了一个完整的语音数字模型。声道参数 基音周期 AV 周期脉冲发生器声门脉冲模型G(z)辐射模型R(z)声道模型V(z) 随机噪声发生器 Au图2-1语音信号数学模型下面对该模型做一些说明,首先它把激励发生同声道传播分离开来,这给语音信号处理带来了很大的简化,同时这样的处理也很符合人体发声的时间情况。另外,声门脉冲模型、声道模型、辐射模型都是线性时变

42、系统,这是在一定的假设条件下提出的模型,但这样的假设不会严重限制模型的应用。对于该线性识别系统,由数字信号处理的知识,可以得到其系统函数: (2-1)式中P为全极点滤波器的阶数,ai()为滤波器的系数。P值越大,则模型的传输函数和实际声道的传输函数的吻合程度越高。当然P值也不能取的太大,一般情况下,P取812。若P取偶数,一般有P/2个共轭极点,极点的频率分别与语音的各个共振峰相对应。辐射模型R(z)与嘴形有关,研究表明,口唇辐射在高频端较为显著,在低频端时影响较小,所以辐射模型R(z)为一阶高通滤波器的形式。其表示式为: (2-2)激励源、声道模型和辐射模型构成了一个完整的语音数字模型。在这

43、个模型中,除G(z)和R(z)保持不变外,基音频率、Av、Au、浊音/清音开关的位置以及声道模型中的参数a1 ap 都是随时间而变化的,由于发声器官的惯性使这些参数的变化速度受到限制,对于声道参数,在10ms30ms的时间间隔内可以认为他们保持不变,因为语音的短时分析帧长一般取20ms左右。上述语音产生模型的基本思想是将激励与系统相分离,使语音信号解体来分别进行描述,而不是直接研究信号波形本身的特性。这种思想是带动语音处理技术飞速发展的关键。这里介绍的语音信号的数字模型虽然已经在许多方面得到了成功的应用,但它毕竟也存在着某些局限性。因此,在应用这种模型时,要注意其适用条件。2.1.3语音信号的

44、预处理技术为了将原始的语音信号变为数字信号,必须经过采样和量化两个步骤,从而得到在时间和幅度上均为离散的数字语音信号。进行说话人识别的语音采样频率一般为8KHz、12.5KHz、16KHz、44.1KHz等,量化精度一般采用8bit、16bit线性量化。在语音信号特征提取之前,首先要对输入语音信号进行预处理,预处理包括预加重、分帧、加窗以及语音端点检测等过程。1. 预加重由于语音信号的平均频率受到声门激励和口鼻辐射影响,高频端大约在800Hz以上按6dB/倍频程跌落,所以在求语音信号频谱时,频率越高相应的成分越小。为此要求在预处理中进行预滤波,预滤波的目的是提升高频部分,使信号的频谱变的平坦,

45、保持在低频到高频的整个频带中,能使用相同的信噪比求频谱,以便于频谱分析以及声道参数分析,并减少尖锐噪声影响。预滤波一般是在语音信号数字化之后,在参数分析之前具有6dB/倍频程的提升高频特性的预加重数字滤波器来实现,它一般是一阶的数字滤波器: (2-3)或表示为: (2-4)其中是输入信号,称为预加重系数,接近于1,一般取值在0.951之间,本文系统中采用的预加重系数值为0.9375。2. 分帧、加窗语音信号的准平稳特性,使得只在短时段上才可视为一个平稳过程,可以用对平稳过程的分析方法进行分析,因此需将语音信号划分为一个一个的短时段,每一短时段称为一帧。为了尽可能不丢失语音信号动态变化的信息,需

46、要使帧与帧之间平滑过渡,保持其连贯性,通常使相邻的两帧有一部分的重叠,交叠的部分称为帧移。帧移通常取为帧长的1/2或1/3。分帧是用可移动的有限长度窗口进行加权的方法来实现的。理想窗函数的频率响应要求主瓣无限狭窄且没有旁瓣,这种窗函数在实际中是无法实现的。可以根据不同应用,采用不同的窗函数来逼近理想的频率响应。加窗过程首先是确定选用的窗函数并确定窗的长度,然后将每一帧语音序列S(n)与时间窗函数W(n)相乘,从而形成加窗语音。在语音信号分析中用的最多的三种窗函数是矩形窗、汉明窗和汉宁窗,其定义分为:矩形窗: (2-5)汉明窗: (2-6)汉宁窗: (2-7)加矩形窗往往带来窗边处信号的变化,而

47、汉明窗和汉宁窗能有效的减少时间窗两端的坡度,使窗口边缘两端不引起急剧变化而能够平滑过渡,这样可以使截取出来的语音波形缓慢降为零,减小语音帧的截断效应。在实际使用中通常选用其中的一种。3. 端点检测端点检测是根据语音的特点及其参数的统计规律,从一段语音中找出语音信号的开始位置点和终止位置点。然后针对有声片段,进行特征提取等操作。这样可以排除静音或纯噪声段的干扰,从而提高系统的识别性能。选取何种参数进行语音端点检测,取决于各音段特征参数的聚集性,简单而有效的是时域参数,诸如短时能量、短时平均幅度和短时过零率等。(1) 语音信号的短时能量语音信号的短时能量定义为: (2-8)其中N为窗长,可见短时能

48、量为一帧样点值的加权平方和。短时能量的主要用途是:一是可以区分浊音段和清音段,因为浊音段时的短时能量值比清音时大很多;二是在信噪比较高的情况下,短时能量还可以作为区分有声和无声的依据;三是可以作为辅助的特征参数用于说话人识别中。(2) 语音信号的短时平均过零率语音信号的短时平均过零率定义为: (2-9)其中为符号函数,为窗函数,计算时常采用矩形窗。短时平均过零率可以粗略估计语音的频谱特性,它与语音的清浊特性存在着一定的对应关系。单纯依赖短时平均过零率不可能准确判断清浊音,只能配合短时能量进行判断。2.2说话人识别的分类语音信号的处理是一个比较宽泛的概念,其研究领域有分为几个分支,说话人识别在语

49、音处理中的具体地位如图2-2所示。语音处理编码分析/合成识别语音鉴别说话人识别语音识别说话人检测说话人辨认说话人确认 文本有关合作说话人高质量语音 文本无关合作说话人高质量语音是否文本无关不知情说话人不同语音质量 文本无关合作说话人高质量语音 图2-2 语音信号处理分类说话人识别与语音识别的区别在于,说话人识别不注重包含在语音信号中的文字符号信息及语义内容,而是着眼于语音信号体现的个人特征。其目的就是提取说话人的这些特征信息用来识别是哪一个说话人。说话人识别技术的分类如下:(1) 按其识别方式可以分为三类:说话人辨认、说话人确认、说话人切分和聚类。说话人辨认(Speaker Identific

50、ation),也称说话人鉴别,是指说话人事先不声明身份,辨认出待识别说话人的语音到底属于N个参考说话人之中的哪一个,有时还要对这个N个说话人以外的语音做出拒绝的判决, 是“多选一”的判别问题。 S1.SiSN待识别语音判断是谁说的 图2-3说话人辨认 说话人确认(Speaker Verification),也称说话人检测,是指说话人事先声明身份,根据声明判断该说话人是否是所声称的说话人,这个过程只涉及一个特定的参考模型与待识别语音之间的比较,是“一对一”的判别问题。 S1 .SiSN 待识别语音判断是否是Si说的 图2-4说话人确认 说话人切分和聚类(Speaker Segmentation

51、and Clustering),也称说话人探测与跟踪,是指在一长段包含特定说话人Z的多人语音中,使用某种方法找出语音Z的起止位置点并正确标注出来。(2) 按识别对象的不同可以分为三类:文本相关、文本无关、指定问文本的说话人识别。 文本相关(Text-Dependent)的说话人识别,是指用户模型训练的文本是给定好的,而且文本与测试文本要求一致,说话人的内容是已知的。如果用户的发音和规定的内容不符合,则无法正确识别该用户。一般采用基于模板的方法,如动态时间规整(DTW)。这种方法需要对每个用户的声音模型逐个进行精确建立,过程较繁且限制较多,因此应用面较窄。 文本无关(Text-Independe

52、nt)的说话人识别,用户模型训练的文本不要求特定的语种和内容,而且训练文本与测试文本之间也不要求一致,说话人的内容是未知的。一般采用基于统计的方法,如隐马尔可夫模型(HMM)。使用这种方法建立的模型相对麻烦,但用户使用方便,应用范围较宽,不易被录音模仿,是当前的研究重点。 指定问文本的说话人识别,是指在识别过程中,用户的文本是由识别装置向用户指定的,只有在确认用户对指定的文本内容正确发音时,才可以接受该用户。这样可以防止用户的语音被盗用。(3) 按照说话人的语音来源可分为两类:开集、闭集的说话人识别。 假设训练库中有SN个说话人 开集(Open-set),是指待测试的说话人的可能不在训练库中,

53、在识别时还要对SN个说话人以外的语音做出拒绝的判别,这就需要设定一个合适的判决门限值。如北京得意音通技术有限公司的“得意”身份证就是采用文本无关的、开集方式的说话人辨认和确认技术。 闭集(Closed-set),是指待测试的说话人肯定在训练库中 ,在识别时需要与训练库中的每个说话人的训练模型都进行一次匹配计算,总共进行SN次比较判决。2.3说话人识别的基本原理说话人识别是利用包含在说话人的语音波形中特有的个人信息,自动识别说话人身份的过程。说话人识别原理主要包括两个阶段训练(注册)阶段和识别(验证)阶段。在训练阶段,每个用户分别说出若干训练语句,系统据此经过相应的预处理和特征提取后对其进行分析

54、 ,并为每个用户建立一个能够描述这一用户说话个性特征的模版或模型库,用来作为这一用户个性特征的标准图案。识别阶段,把从待识别说话人说出的语音信号中提取的特征参数,与在训练过程中得到的参考参量集或模型模版加以比较,并且根据一定的相似性准则进行判段。其中在说话人辨认中,取与测试音匹配距离最小的说话人模型所对应的说话人作为识别结果;而在说话人确认中,则通过判断测试音与所声称的说话人模型之间匹配距离是否小于系统定义的阀值来做判断。说话人识别的原理框图如图2-5所示。建立参考模版或模型训练 输入语音自适应特征提取 预处理识别判断模式匹配识别 识别结论 图2-5 说话人识别原理流程图由说话人原理流程图可知

55、,识别过程主要有预处理、特征提取、模型训练、模式匹配、识别判断和自适应六部分组成。1. 语音信号预处理语音信号是一种典型的非平稳信号,但是由于发音时声道的物理运动比起声音振动的速度来讲要缓慢的多,因此语音信号可假设为短时平稳的。即在极短的时间内(1030ms),其频谱特性和某些物理特征参数可近视看作是不变的。预处理之后的工作都是基于平稳这一假设。预处理主要进行以下几个方面的工作:滤波、模数转换、自动增益控制、去除噪声、预加重、端点检测和自动分段。预处理在语音识别系统中占有重要地位。其中端点检测、自动分段的准确性与否直接影响系统性能的优劣。2. 特征提取特征提取是从预处理处得到的语音中获得反映说

56、话人个性特质的特征参数。这一过程还有去除冗余信息、减小数据量的作用。特征提取是说话人识别技术中的关键步骤,其好坏直接影响到最后的识别性能。3. 模型训练在训练过程中,利用特征提取阶段得到的特征串对选用的模型的结构或参数进行估计和修正。通常为每一个说话人建议一个模型。4. 模式匹配计算测试音与说话人模型的匹配距离或者似然概率,来进行匹配计算。5.识别判断根据匹配计算结果,采用某种判决准则判断说话人是否是所声称的说话人或者说话人到底是谁。6.自适应为了提高系统的识别性能,在做出识别后,用测试音对相应的模型参数或者结构作调整训练,以及修正判决策略等等。2.4说话人识别的常用特征说话人语音特征,是指说

57、话人的语音信号中能唯一表征个人特征的向量序列。对于说话人识别,提取的特征需要满足:1. 具有高的区分能力,又对自身不同条件下的差异(如身体状况等)体现的不明显;2. 鲁棒性要好,受时间和空间的影响小。说话人识别技术的研究过程中使用个特征参数主要有:基音频率、语谱图、共振峰系数、声道冲击响应、自相关系数、声道面积函数、线性预测系数、线谱对系数(LSP)、美尔倒谱系数、感知线性预测系数(PLP)以及差值倒谱等等。目前,比较主流的是美尔倒谱系数和线性预测系数以及它们的变体。不同的特征参数其物理意义不同。以全极点模型为基础的LPCC可以很精确的反映语音信号的频谱幅度,在应用于说话人时,一般832维的L

58、PCC就能很好表征声道特性。但它是基于信号的AR模型上的,所以当遇到动态特性较强的辅音或者存在噪声干扰时,AR信号就会变成ARMA信号。也就是说,当只假设用AR信号分析时结果偏差会很大。MFCC则完全不同于LPCC,它是对人的听觉特性研究得到的特征参数,无任何前提假设,鲁棒性也比较好,是目前与文本无关的说话人识别研究中普遍采用的参数。实验结果也表明在识别过程中虽然LPCC的计算量占一定优势,但识别率上明显不如MFCC,这也是文本系统选用MFCC的原因之一。2.5说话人识别系统的结构框架针对本文研究的用于说话人识别的语音特征提取算法和为了实现说话人识别,我们建立了所需的说话人识别系统。用于检测算

59、法提取的特征有效性和说别技术的实现。说话人识别系统结构如图2-6所示 图2-6说话人识别系统结构从图2-6中,我们可知说话人识别系统主要包括两个部分:特征提取和模式匹配。特征提取的任务是选取唯一表现说话人身份的有效且稳定可靠的用户语音特征;模式匹配的任务是对训练和识别时的特征模式进行相似的匹配。1. 特征提取说话人的模型不是由语音信号得到的,而是通过从语音信号中提取特征而得到的,是说话人语音特征的模型。测试音只有在经过特征提取后才与说话人的模型进行比较和匹配,训练语音也只有进行语音特征提取后才能得到其特征的模型。因此特征提取是说话人识别系统中的重要组成部分。与计算机处理相对应,可以将人类的声音

60、划分为以下三个层次:声道声学层次,在分析短时信号的基础上,抽取对通道、时间等因素不敏感的特征;韵律特征层次,抽取独立于声学、声道等因素的超音段特征,如方言、韵律、语速等;语音结构层次,通过对语音信号的识别,获取更加全面和结构化的语义信息。说话人识别系统主要针对较低层次的声道学特征进行建模,主要有基音周期、共振峰、基于线性预测的倒谱、基于付氏变换的FFT倒谱、基于语音信号的滤波器组分析的美尔倒谱和语音谱的过渡信息等。总之,较好的特征提取,应该能够有效地区分不同说话人,但又能在同一说话人语音发生变化时保持相对的稳定;不易被他人模仿或能够较好地解决被他人模仿的问题;具有较好的抗噪性能。2. 模式匹配测试音的特征与说话人模型进行匹配,计算匹配距离。说话人确认时,只与所声称说话人的模型进行匹配额匹配距离计算;说话人辨认时,与所有人的模型进行匹配和匹配距离计算。目前针对各种特征而提出的模式匹配方法的研究越来越深入,大致可归为三类:基于非参数模型的方法、基于参数模型的方法、基于神经网络模型的方法。典型的非参数模型有模板匹配、矢量量化模型等。参数模型是指采用某种概率密度函数来描述说话人的语音特征空间的分布情况,并以该概率密

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!