基于遗传算法的混合高斯模型在与文本无关的-说话人识别中的应用-硕士毕业(论文)设计论文

上传人:无*** 文档编号:205208957 上传时间:2023-04-28 格式:DOC 页数:80 大小:4.58MB
收藏 版权申诉 举报 下载
基于遗传算法的混合高斯模型在与文本无关的-说话人识别中的应用-硕士毕业(论文)设计论文_第1页
第1页 / 共80页
基于遗传算法的混合高斯模型在与文本无关的-说话人识别中的应用-硕士毕业(论文)设计论文_第2页
第2页 / 共80页
基于遗传算法的混合高斯模型在与文本无关的-说话人识别中的应用-硕士毕业(论文)设计论文_第3页
第3页 / 共80页
资源描述:

《基于遗传算法的混合高斯模型在与文本无关的-说话人识别中的应用-硕士毕业(论文)设计论文》由会员分享,可在线阅读,更多相关《基于遗传算法的混合高斯模型在与文本无关的-说话人识别中的应用-硕士毕业(论文)设计论文(80页珍藏版)》请在装配图网上搜索。

1、东 南 大 学硕 士 学 位 论 文基于遗传算法的混合高斯模型在与文本无关的说话人识别中的应用Text-independent Speaker Recognition using GMM based on Genetic AlgorithmA Dissertation Submitted toSoutheast UniversityFor the Academic Degree of MasterBY Supervised by Department of Radio EngineeringSoutheast UniversityJanuary 2007独创性声明东 南 大 学 学 位 论 文

2、 独 创 性 声 明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。研究生签名: 日 期: 东 南 大 学 学 位 论 文 使 用 授 权 声 明东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的保

3、密论文外,允许论文被查阅和借阅,可以公布(包括刊登)论文的全部或部分内容。论文的公布(包括刊登)授权东南大学研究生院办理。研究生签名: 导师签名: 日 期: 目录摘 要基于遗传算法的混合高斯模型在与文本无关的说话人识别中的应用本文主要从说话人识别模型的初始化、训练和判别方法以及语音的端点检测等方面作研究探讨。在模型的初始化方面,方法一利用最大似然估计算法对模型进行初始化;方法二利用时间规整化方法对语音进行预先处理,用聚类后的语音对高斯模型的各成员密度函数分别进行初始化和训练。在识别模型的训练方面,主要研究高斯混合模型的模型训练。方法一利用最大似然估计算法对模型进行初始化,然后利用EM算法对初始

4、模型按一定比例进行修正,最终获得较优模型。方法二用方法一获得的部分最优个体作为遗传算法的初始种群,通过选择、交叉和变异,收敛到最优模型。遗传算法采用浮点编码,交叉和变异在一个种群的胜者组和败者组同时进行,最后改为优胜劣汰。判别方法方面,对一段语音中的帧得分进行不同变换,然后获得最终的得分,从而改善识别效果。语音的端点检测方面,分别利用简单的三门限方法和利用信噪比的方法进行端点检测。关键词:说话人识别,高斯混合模型,改进EM算法、改进遗传算法、端点检测69 目 录AbstractText-independent Speaker Recognition using GMM based on Gen

5、etic AlgorithmThis paper mostly explores in the initialization and training of speaker recognition models, the method of speaker decision and the voice activity detector.In the initialization of speaker recognition models, the initialization of Gaussion mixture models is investigated. First, utilize

6、 the maximum likelihood estimate to gain the initial models. Secondly, utilize the time warping network to gain the initial models.In the training of speaker recognition models, we also investigate the training of Gaussian mixture models. The first, utilizing the maximum likelihood estimate to gain

7、initial models, we modify these initial models with the expectation maximum algorithm according to a ratio. Then we obtain more optimal models. Secondly, using some of results that the first method attains for the initial group, the genetic algorithm converges to the most optimal models by selection

8、s, crossovers and mutations. The genetic algorithm utilizes the floating-point encoding. Crossovers and mutations are executed in the winning group and the failing group of a generation simultaneously. Finally, the optimal win and the poor fail.In the method of decision, making transforms to the fra

9、me scores of the test utterance, we compute the final score, improving the result of speaker recognition.In the voice activity detector, both the method using SNR and the mothod using magnitude and zero cross ratio are used and tested.Keywords: speaker recognition, Gaussian mixture models, advanced

10、expectation maximum algorithm, advanced genetic algorithm, voice activity detector目 录摘 要IAbstractII目 录III图片目录V表格目录VI第1章 绪论11.1. 研究说话人识别的意义11.2. 说话人识别的概念及其分类21.3. 说话人识别的国内外发展现状和存在问题21.3.1. 说话人识别的发展和现状21.3.2. 说话人识别目前存在的问题41.4. 本文组织结构5第2章 说话人识别的基本原理72.1. 引言72.2. 语音的发声原理72.3. 说话人识别的基本结构92.3.1. 语音的预处理92.

11、3.2. 说话人识别的特征选取122.3.3. 说话人识别的方法122.4. 本章小结13第3章 说话人识别的特征参数及其选取153.1. 引言153.2. 基音频率153.3. 线性预测编码(LPC)163.4. 复倒谱和倒谱183.5. MEL倒谱参数(MFCC)273.6. 差值倒谱283.7. 参数的选取方法293.8. 本章小结30第4章 说话人识别的识别方法314.1. 引言314.2. 矢量量化方法(VQ)314.3. 隐马尔可夫模型方法(HMM)374.4. 高斯混合模型方法(GMM)424.5. 本章小结42第5章 基于高斯混合模型的模型训练方法455.1. 引言455.2.

12、 模型初始化方法简介455.3. 最大似然估计(ML)465.4. EM及改进的训练方法475.5. 基于遗传算法的改进GMM模型训练方法495.5.1. 遗传算法简介495.5.2. 语音的规整化方法565.5.3. 基于遗传算法的改进GMM模型训练方法575.6. 本章小结60第6章 基于高斯混合模型的说话人判别方法616.1. 引言616.2. GMM模型识别中的问题616.3. 本章小结62第7章 说话人识别中的语音端点检测637.1. 引言637.2. 端点检测方法的研究637.2.1. 简单的端点检测方法637.2.2. 应用信噪比进行端点检测的方法657.3. 本章小结65第8章

13、 实验结果和结论678.1. 实验语音数据678.2. 改进的EM算法678.3. 基于遗传算法的改进模型训练方法68参考文献69致 谢72图片目录图片目录图 21语音产生模型8图 22说话人识别系统框图9图 31中心削波函数Cx16图32 卷积组合变为线性组合系统粗略图19图 33卷积组合变为线性组合详解图19图 34微商法求复倒谱23图 35最小相位法求复倒谱25图 36 Mel倒谱求解图28图 41说话人识别的矢量量化法32图 42矢量量化系统框图33图 43 LBG算法流程图36图 44 HMM模型37图 51遗传算法流程图50图 52时间规整网络的结构57图 61基于GMM说话人辨认

14、系统结构框图61表格目录表格81 系统识别率(成员密度函数总数为4,修正因子变化)67表格82系统识别率(成员密度函数总数为6,修正因子变化)67表格83系统识别率(成员密度函数总数为8,修正因子变化)67表格 84 系统识别率(修正因子为1,成员密度函数总数变化)68表格85 系统识别率(成员密度函数总数为24,修正因子变化)68表格86 系统识别率(成员密度函数总数为25,修正因子变化)68表格87 系统识别率(成员密度函数总数为25,修正因子变化)68表格88 系统识别率(成员密度函数总数为26,修正因子变化)68第1章 绪论第1章 绪论1.1. 研究说话人识别的意义说话人识别1又称声纹

15、识别,它利用语音信号来识别出说话人的身份,与指纹识别、人脸识别、虹膜识别、掌形识别、姿态识别等同属于生物识别的范畴。语音是人的自然属性之一,由于各个说话人发音器官的生理差异以及后天形成的行为差异,每个人的语音都带有强烈的个人色彩。因此每个人的语音中蕴含着与众不同的个人特征。用语音来鉴别说话人的身份有着许多独特的优点:对于正常人来说,语音是人的固有特征,不会丢失或遗忘,具有随身携带性;每个人的声带、咽喉、口腔和鼻腔的构造不同,而且每个人在肺部收缩,压迫气流由支气管经过声门和声道的方式不同,导致每个人的语音特征有极强的个性,很难模仿,具有个人特性的唯一性;语音信号的采集简易方便,系统设备成本低。因

16、此,语音不仅具有自然唯一性、随身携带性、不会遗忘等特点,还具有数据采集设备的非接触性和简易性等其它生物特征所不具备的优点。语音信号的这些优点使得说话人识别在许多领域具有广泛的应用前景。说话人识别在电子商务、消费、银行等远程客户服务的身份认证、军事安全领域的说话人身份自动检测和认证中具有极大的应用价值和广泛的应用前景,是当今语音信号处理和生物特征信息检测和识别领域的重要研究方向。在保安领域,可以利用说话人识别作为出入的凭证,如用特定人的声音是实现机密场所的出入人员的检查;在工厂职工的口令实现职工签名管理等。在公安司法领域,可以利用说话人识别作为罪犯身份鉴定的手段,如判断犯罪现场记录的声音是多个嫌

17、疑犯中的哪一个人的声音,将说话人辨认和确认结合起来还可以判断出嫌疑犯中是否包含真正的罪犯。日本警方研究人员经过长期研究表明说话人识别可以作为可信的法庭证据。在军事领域,可以利用说话人识别进行指挥员鉴别,然后判断不同的指挥员所处的位置,获取敌方作战部署的意图,从而在战争中可以知己知彼为最终的胜利增加筹码。在财经领域,可以利用说话人识别作为身份确认的有效手段,如电话预约业务中的声音确认自动转账会馆、余额通知和股票行情咨询等等。在信息服务领域,同样可以利用说话人识别作为身份确认的工具,如自动信息检索或电子商务等Internet信息服务中的声音身份确认等等。在医学应用中,可利用说话人识别系统响应患者的

18、要求,从而实现对机器假肢的控制,避免任何都能控制该假肢的弊病。对说话人识别的研究始于20世纪60年代。早期的工作主要集中在人耳听辨实验和探讨听音识别的可能性方面。随着研究手段和工具的改进,研究工作逐渐脱离了单纯的人耳听辨。Bell实验室的L.G. Kesta用目视观察语谱图的方法进行识别,提出了声纹 (voiceprint) 的概念。此后,随着电子技术和计算机技术的发展,说话人识别的研究取得了突飞猛进的发展,动态规划、线性预测、矢量量化、隐马尔科夫模型等技术先后成功应用于说话人识别。识别的模型从单模板模型发展到多模板模型,从多模板模型发展到VQ模型、高斯混合模型、隐马尔科夫模型,再到人工神经网

19、络模型。识别环境从无噪声环境下对少数说话人的识别发展到复杂环境下对大量说话人的识别。所采用的识别技术从仅涉及动态规划发展到涉及统计信号处理、矢量量化与编码、模糊系统理论与方法、最优估计理论、人工神经网络、灰色系统分析等多科学领域。1.2. 说话人识别的概念及其分类自动说话人识别(Automatic Speaker Recognition :ASR),是从说话人的一段语音中分析和提取出说话人的个性特征,自动确定说话人是否在所登记的说话人的集合中,以及说话的人是谁的过程。很久以来它就是一个既有巨大吸引力而又有相当难度的课题。说话人识别又可以划分为两个范畴,即说话人辨认(Speaker Identi

20、fication)和说话人确认(Speaker Verification)。前者是把待测说话人的语音判定为属于语音库中多个参考人之中的某一个,是多者择一的问题。后者则是根据待测说话人的语音,确定是否与其所声称的参考说话人相符,这种确认只有两个结果,或是肯定(即得到确认),或是否定(拒绝承认)。另外对于说话人认识别来说,不管是辨认还是确认,都可以按照话语的文本可分为与文本有关(Tex-Dependent)的说话人识别和与文本无关(Text-Independent)的说话人识别。其中与文本有关话者识别可以采用很多方法。由于已知文本,提供了大量的信息,因此这些方法能获得较好的效果。然而,对于用户来说

21、固定的文本可能很不方便。而且,当说话人不合作或在日常会议中进行确认时与文本有关的话者识别就不起作用。为了避免这个问题,发展与文本无关的话者识别方法显得尤为重要。1.3. 说话人识别的国内外发展现状和存在问题1.3.1. 说话人识别的发展和现状随着社会、军事以及安全等领域需求的增长,美国、日本、欧洲等一些发达国家都相继加强了说话人识别的研究工作,我国一些高校和研究机构也对说话人识别进行了深入研究,并取得了一定的成果。在说话人识别的特征参数提取方面,1963年Bell实验室的S.Pruzansky2和1971年P.D.Breaker3提出了用短时谱中的信息作为说话人特征;1968年B.S.Atal

22、4采用基音频率、1971年G.Doddington5采用共振峰频率、1972年M.R.Sambur6用线性预测系数(LPC)、1973年S.Frurui和F.Itakura用语音对数域比例7、1972年J.J.Wolf8和1975年M.R.Sambur9从元音和鼻音中提取出较好的说话人特征、1974年B.Atal10通过比较各种参数得出倒谱系数为说话人识别提供最好的结果,倒谱成为说话人识别系统的首选参数;1983年Li and Wrench采用LPC倒谱参数11、1995年Reynolds等人1213采用了Mel倒谱,取得了较好的效果,Attili14于1988年采用倒谱、LPC系数和自相关系

23、数作为特征参数获得了很好的效果,从而使得倒谱参数与其他特征参数相组合的研究成为了说话人识别参数提取的研究热点15161718;1996年Colombi15将倒谱、差分倒谱相结合作为混合特征参数;Reynolds16采用了Mel倒谱和差分Mel倒谱相结合;Jungpa Seo17、Petry等人18于2001年将分形维数与差分LPC倒谱参数相结合均取得了很好的效果。在识别方法方面,七十年代到八十年代初,大多数说话人识别系统都采用模板匹配法(Pattern match)1011,如1974年,AT&T的Atal用模板匹配法研究了10人的与文本有关的说话人识别,其说话人辨识(0.5s)的误识率及说话

24、人确认(1s)的等差错率都是2%10;同属AT&T的Furui将倒谱矢量规格化,仍然用模板匹配法对说话人确认进行了研究,获得了0.2%的等差错率11;1979年Markel和Davis20采用线性预测(linear Predictive:LP)系数和长时统计的方法建立了17人的与文本无关的说话人辨认系统,测试语音长度为39秒,其误识率为2%;Attili等人14在此基础上加入投影的方法将测试语音的长度缩短为3秒。1982年Schwartz21等人利用功率谱密度估计的方法分析了对数面积比系数(Log area ratio:LAR)在与文本无关说话人辨认中的应用,当用户数为21人时误识率为2.5%

25、。此后,矢量量化(Vector Quantization:VQ)方法在说话人识别中得到了广泛应用112223,如Soonge等人22提取孤立数字语音的LP系数并使用矢量量化进行说话人辨认实验,得到了5%(1.5秒)和1.5%(3.5秒)的误识率,矢量量化逐渐成为与文本无关说话人识别系统的主要方法,同时统计形式的识别方法也开始出现:1988年的J.B.Attilli的贝叶斯辨别分析14和1993年的A.L.Higgins24等人的最近邻分类器。进入九十年代以来,神经网络技术开始应用于说话人识别,1990年J.Oglesby和J.A.Mason的多层感知器(MLP)25和1991年的放射状基函数2

26、6,1991年Y.Bennani和P.Galllinari的时延神经网络(TDNN)27。混合高斯模型(Gaussian Mixture Model:GMM)2829和隐马尔科夫模型(Hidden Markov Models:HMM)也逐渐应用于说话人识别中303132。在产业化方面,美国的Sprint公司推出了语音电话卡业务,用户直接对着电话念出对方号码,系统就可识别说话人并作出是否拨通的决定,欧洲电信联盟在电信与金融结合领域应用说话人识别技术,于1998年完成了CAVE(Caller Verification in Banking and Telecommunication:CAVE)计划

27、,在电信网上完成了说话人识别。同时Motorola和Visa等公司成立了V-commerce联盟,希望实行电子交易的自动化,其中通过声音确认人的身份是该项目的重要组成部分。其他一些商用系统还包括:ITT公司的SpeakerKey、Keyware公司的VoiceGuardian、T-NETIX公司的SpeakEZ等。我国自执行863计划以来,对说话人识别技术的研究不断深入,研究水平已经基本与国外同步。中国科学院自动化所模式识别公司成功推出了PATTEK SV声纹识别产品,是目前国内推出的同类产品中最优秀的产品之一,具有良好的性能。北极星软件公司、北京中科信利等公司也推出了自己的说话人识别系统。1

28、.3.2. 说话人识别目前存在的问题尽管目前说话人识别技术已经取得了相当大的进展,但将说话人识别技术大规模地应用到实际生活中仍有很长的一段路要走,这主要是因为实验室条件和实际条件的差异很大。一方面,实验室条件较少考虑到噪声的问题,而在实际应用中,噪声是不可避免的,尤其在一些特殊应用中,如犯罪现场录制的犯罪嫌疑人的声音不可能很清晰;又如Internet信息服务中,声音在通过通讯线路的传播时不可避免的会引入噪声。另一方面,实验室使用的说话人集合往往比较小的,而在实际应用中说话人集合可能非常大,当说话人集合扩大时,无论是系统效率,还是识别率往往会急剧下降。主要难点包括以下几个方面: 1、语音信号特征

29、中的说话人的个性特征难以分离和提取。说话人识别的信息来源是说话人所说的话,其语音信号中既包含了说话人所说话的内容信息,也包含了说话人的个性信息,是话音特征和说话人个性特征的混合体。目前还没有很好的方法把说话人的特征和说话人的语音特征分离开来。关于语音中语义内容和说话人个人性的分离,系统地全面地进行研究的人还很少。现在语音内容和其声学特性的关系已经较明确,但是有关说话人个人特性和其语音声学特性的关系还没有完全搞清楚。目前对于人是怎样通过语音来识别他人的这一点尚无基本的了解,还不清楚究竟是何种语音特征(或其变换)能够唯一地携带说话人识别所需的特征,什么特征对说话人识别最有效,如何有效地利用非声道特

30、性,是说话人识别中参数提取首要考虑的问题;由于缺少对上述问题的基本了解,因此在这样做的过程中,很可能不自觉地丢失了许多本质的东西。2、实际环境下的说话人识别系统性能还很有待提高实际环境中,噪声和干扰远比实验室环境来的复杂,目前的常用降噪算法对平稳噪声能够取得较好的效果,对非平稳噪声的降噪效果往往效果不佳,如何有效地针对实际环境,去除各种加性噪声和乘性噪声的干扰,是噪声环境下说话人识别面临的问题;目前常用的降噪算法都是基于语音识别的,这些算法虽然有效地提高了信噪比,却往往丢失了说话人的特征。使得降噪后识别率没有明显的提高。3、说话人个性特征的变化和样本选择问题。对于由时间、特别是病变引起的说话人

31、特征的变化研究的还很少。感冒引起鼻塞时,各种音尤其是鼻音的频率特性会有很大的变化;喉头有炎症时会发生基音周期的变化。因此,由于感冒而不能进公司大门,这是一个大问题。另外对于样本选择的系统研究还很少。根据听音实验,不同的音素所包含的个人信息是不同的,所以样本的合理选择对识别率也有很大影响。现有的说话人识别系统还不能很好解决由时间、特别是病变引起的说话人特征变化带来的问题。1.4. 本文组织结构第一章主要介绍说话人识别的研究意义、基本概念和分类,并简述说话人识别的发展和研究现状,以及说话人是识别中目前存在的问题。第二章主要介绍说话人识别的基本原理,介绍了语音发声的原理和说话人识别系统的基本结构,包

32、括语音的预处理、说话人特征的提取、说话人的识别。第三章主要分析了语音参数对说话人识别性能的影响,并详细介绍了基音频率、共振峰频率、LPC系数、复倒谱、倒谱、MEL倒谱、LPC倒谱和差值倒谱等参数特征,最后介绍了说话人识别的参数选取的方法。第四章主要说话人识别的识别方法,讲述了矢量量化(VQ)、隐马尔可夫模型(HMM)、人工神经网络(ANN)和混合高斯模型(GMM)的等识别理论。第五章给出一些高斯混合模型的模型训练方法,最大似然概率(ML)算法、最大期望(EM)算法、改进EM算法,并介绍了模型初始化和训练的改进方法,包括改进的模型初始化方法和基于遗传算法的改进模型训练方法。第六章阐述说话人识别中

33、判决方法,介绍了条件概率和使用条件概率时的各种帧概率变换。第七章论述说话人识别中的端点检测方法。简单介绍了各种噪声处理的方法和端点检测方法,其中包括利用三电平和应用信噪比进行端点检测的方法。第八章介绍各实验结果及相应的结论。第2章 说话人识别的基本原理第2章 说话人识别的基本原理2.1. 引言自动说话人识别1(Automatic Speaker Recognition:ASR )是一种自动识别说话人的过程。说话人识别和语音识别的区别在于,它不注重包含在语音信号中的文字符号以及语义内容信息,而是着眼于包含在语音信号中的个人特征,提取说话人的这些个人信息特征,达到识别说话人的目的。自动说话人识别按

34、照其完成的任务可以分为两类:自动说话人确认(Automatic Speaker Verification:ASV)和自动说话人辨认(Automatic Speaker Identification:ASI)。本质上它们都是根据说话人所说的测试语句或关键词,从中提取与说话人本人特征有关的信息,再与存储的参考模型比较,做出正确的判断。不过自动说话人确认是确认一个人的身份,只涉及一个特定的参考模型和待识别模式之间的比较,系统只做出“是”或“不是”的二元判决;而对于自动说话人辨认,系统则必须辨认出待识别的语音是来自待考察的个人中的哪一个,有时还要对这个人以外的语音做出拒绝的判别。由于需要次比较和判决,

35、所以自动说话人辨认的误识率要大于自动说话人确认,并且随着的增加,其性能将会逐渐下降。此外,在进行自动说话人识别时,按被输入的识别用测试语音来分,还可将说话人识别分为三类,即与文本无关(Text-Independent)、与文本有关(Text-Dependent)和文本指定型(Text-depend)。前二类,一种是不规定说话内容的说话人识别(识别时不限定所用的语音的语句内容),另一种是规定内容的说话人识别(只能用规定内容的语句进行识别)。然而光有这二种类型是不完全的,因为如果设法事先用录音装置把说话人本人的讲话内容记录下来,然后用于识别,则往往有被识别装置错误接受的危险。而在指定文本型说话人识

36、别中,每一次识别时必须先由识别装置向说话人指定需发音的文本内容,只有在系统确认说话人对指定文本内容正确发音时才可以被接受,这样做可以防止本人的语声被盗用。说话人识别方法的基本原理与语音识别相同,也是根据从语音中提取的不同特征,通过判断逻辑来判定该语句的归属类别。但它也具有其特点:语音按说话人划分,因而特征空间的界限也应按说话人划分;应选用对说话人区分度大,而对语音内容不敏感的特征参量;由于说话人识别的目的是识别出说话人而不是所发的语音内容,故采取的方法也有所不同,包括用以比较的帧和帧长的选定,识别逻辑的制定等。2.2. 语音的发声原理人类的发声过程是由于肺部的收缩,压迫气流由支气管经过声门和声

37、道引起音频振荡而产生的,其中声道起始于声门处而终止于嘴唇,包括咽喉、口腔。鼻道则是从小舌开始到鼻孔为止。当小舌下垂时,鼻道与声道发生耦合而产生语音中的鼻音。发音过程中,声道各处的截面积会随着不同语音发生不同变化,且不同的人的声道各处的截面积也不一样。而声道各处的截面积取决于舌、唇、下颌以及小舌的位置。声道截面积随着纵向位置而变化的函数,称为声道截面积函数。声道的共振峰特性主要决定于声道截面积函数。而声道的共振峰特性又决定了所发声音的频谱特性,即音色。图 21语音产生模型图 21给出一个离散时域的语音产生模型。这个模型是许多研究和应用的基础,它由激励源、声道模型和辐射模型三个部分组成。激励源分清

38、音和浊音两个分支。声道模型改出了离散时域的声道传输函数V(z),把实际声道等效成一个变截面管来研究,在大多数情况下可以看成一个全极点函数。人类发音过程有三类不同的激励方式,因而能产生三类不同的声音,即浊音、清音和爆破音。当气流通过声门时声带的张力刚好使声带发生较低频率的张驰振荡,形成准周期性的空气脉冲。这些空气脉冲激励声道便产生浊音。若声道中某处截面积很小,气流高速冲过此处时而产生湍流,当气流速度与横截面积之比大于某个门限值时便产生摩擦音,即清音。而声道某处完全闭合建立起气压,然后突然释放而产生的声音就是爆破音。由发音方式和声道形状的不同,人类可以发出无穷多种、听觉系统可以将它们相互区分的声音

39、。但语音又可以分割成可辨别的基本语音单位,即音素,且这样的音素是有限的。这样一个语句就可以分解为一串音素,但一串音素不等于一个语句,语句中还含有反映语义、语感的韵律信息。这里的韵律信息包括各音素的相对强度、相对时长、相对音高、音高之间的停顿以及音素之间相互影响而产生音素的变异等。2.3. 说话人识别的基本结构说话人识别就是从说话人的一段语音中提取出说话人的个性特征,通过对这些个性特征的分析和识别,从而达到对说话人进行识别或者确认的目的。说话人识别不同于语音识别,前者利用的是语音信号中说话人的个性特征,不考虑包含在语音中的字词的含义,强调的是说话人的个性;而后者的目的是识别出语音信号中的语义内容

40、,并不考虑说话人的个性,强调的是语音的共性。图 22说话人识别系统框图是说话人识别系统的结构框图,它有预处理、特征提取、模式匹配和判决等几大部分组成。除此之外,完整的说话人识别系统还应包括模型训练和判决阈值选择等部分。图 22说话人识别系统框图建立和应用这一系统可分为两个阶段,即训练和识别阶段。在训练阶段,系统的每一说话人说出若干训练语料,系统根据这些训练语料,通过训练学习建立每个使用者的模板或模型参数参考集。而在识别阶段,把从待识别说话人说出的语音信号中导出的特征参数,与在训练过程中得到的参考参量集或模型模板加以比较,并且根据一定的相似性准则进行判定;对于说话人辨认来说,所提取的参数要与训练

41、过程中的每一人的参考模型加以比较,并把与它距离最近的那个参考模型所对应的使用者辨认为是发出输入语音的说话人。对于说话人确认而言,则是将从输入语音中导出的特征参数与其声言为某人的参考量相比较。如果两者的距离小于规定的阈值,则予以确认,否则予以拒绝。2.3.1. 语音的预处理预处理包括对输入的语音数据进行端点检测、降噪、预加重、加窗、分帧等等。这和语音识别时的预处理基本相同,但在有些方面也可能有差别,如求取特征参数时的帧和帧长的选定等,对于噪声环境下的说话人识别而言,还需要对含有噪声的语音进行降噪。目前对预处理的研究主要集中于端点检测和语音降噪,下面就本论文涉及到的这两部分作一介绍。1.1.1.1

42、 端点检测语音信号是由语音及各种背景噪声混合而成的,将语音和各种非语音信号时段区分开来,准确地确定出语音信号的起始点被称为端点检测。研究表明33,即使在安静的环境下,语音识别系统一半以上的错误来自端点检测。因此,端点检测的性能对于识别的正确率、识别速度都有着重要的影响34,这主要表现在以下几个方面:1、在语音滤波和增强中,语音信号和噪声的模型参数都依赖于对应的语音段或噪声段。只有准确地判定出语音信号的端点,才能正确地进行语音处理,提高识别的准确率;2、如果在识别前移除信号中的静音段,使得整句的似然得分累计更多的集中在语音段,而不是被语音和噪声所分散,这样有助于识别率的提高;3、在不断变换的环境

43、下对语音和噪声建模是非常困难的,准确的端点检测可以事先移除单纯噪声的时段对于语音和噪声模型的准确建立有很大帮助;4、当处理信号含非语音时段非常长时,准确的端点检测可以极大提高计算速度并节省电池功率。端点检测的方法可以分为三大类:基于鲁棒性特征的方法、基于特征滤波的方法和基于模型的方法。基于鲁棒性特征的方法是寻找能表征语音和噪声在不同域差异的特征来进行语音和噪声时段的区分,这类方法需要考虑两方面的问题:(1)提取能够正确反映不同类型语音信号(清音、浊音和噪声)的特征;(2)对不同信噪比的信号能计算出合理的判决门限。常用的特征主要有能量35、子带能量36、过零率37、基频38、周期度量、熵39、能

44、量方差等。基于能量的方法在高信噪比条件下效果很好,随着噪声环境的恶化性能下降很快39。基于子带能量、过零率、周期度量、基频的方法对噪声比较敏感,只适用于某些类型的噪声环境,因此,这些参数不能完全描述语音的特征。J.L.Sheng40发现语音段的熵与噪声段有明显不同,将熵作为端点检测的参数。语音熵的研究成为了端点检测的热点,但是基于熵的方法对babble noise、音乐背景噪声效果不好;Huang等人将时域能量和熵结合在一起作为新的参量,使得性能有所提高,但是在实际噪声环境下,无论是基于能量的算法还是基于谱熵的算法效果都不是很理想。基于特征滤波的方法是对特征先进行滤波,然后进行端点检测,主要算

45、法有子空间滤波、能量差分自适应滤波34等。基于特征滤波方法一方面增大了计算量、另一方面改变了语音谱的结构,丢失了部分信息。基于模型的方法是针对噪音和语音进行建模用来区分语音时段。基于模型的方法的缺点是在于噪音的环境多种多样,不可能对各种情况都建立相应的模型,当噪音环境与模型不匹配时,性能严重退化。1.1.1.2 语音增强在实际环境下语音信号常受到周围环境、传输媒介引入的噪声、通讯设备内部噪声以及其他讲话者的干扰。这些噪声和干扰使得接受到的语音信号并非是纯净的原始语音信号,而是受噪声污染的带噪声的语音信号。为了从带噪声的语音信号中获得尽可能纯净的语音信号,减少噪音的干扰,就需要进行语音增强。语音

46、增强主要解决两个问题:(1)改进语音质量,消除背景噪声,使听者乐于接受,不感疲劳,这是一种主观度量;(2)消除干扰噪声,提高语音的可懂度,这是一种客观度量。语音增强有着广泛的应用,因此,寻找一种有效的算法对带噪声的语音信号进行处理以达到较高的抗噪声效果的研究意义很大。在一般情况下干扰信号是随机信号,要完全排除噪音是不现实的,所以语音增强的目标是对收听人而言主要是改善语音质量,提高语音可懂度,减少疲劳感,对于说话人识别来说是提高系统的识别率和抗干扰能力。1.1.1.3 预加重、加窗和分帧由于语音信号的平均功率谱受声门激励和口鼻辐射影响,高频端大约在800Hz以上按6dB/倍频程跌落,所以求语音信

47、号频谱时,频率越高相应的成分越小,为此要在预处理中进行预加重(Pre-emphasis)处理。预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或声道参数分析。6dB/倍频程的提升高频特性的预加重数字滤波器来实现,它一般是一阶的数字滤波器: (2-1)其中值接近于1。考虑到一个短时间范围内(一般认为在10ms30ms的短时间内),其特性基本保持不变即相对稳定,因而可以将其看作是一个准稳态过程,即语音信号具有短时平稳性。分帧一般要采用交叠分段的方法,这是为了使得帧与帧之间平滑过渡,保持其连续性。前一帧和后一帧的交叠部分称为帧移。

48、帧移与帧长的比值一般取为01/2,这种方法称为加权交叠平均法,又可以看作是Welch法的推广,是一种广泛应用的方法,作进一步分析可以发现随着段数的增大,它的方差性能会得到改善,而且它估计出的谱也是渐进无偏的13。分帧就是用可移动的有限长度窗口的方法来实现的,加窗语音信号为: (2-2)其中为窗函数。在语音信号数字处理中考虑到带外衰减一般常用汉明窗,它的表达式如下所示(其中N为帧长): (2-3)由于采样周期、窗口长度N和频率分辨率之间存在的关系,既有采样周期一定时,随窗口宽度N的增加而减小,如果窗口N取小,频率分辨率下降,而时间分辨率提高。应该根据不同的需要选择合适的窗口长度。这样,语音信号就

49、被分割成一帧一帧的加过窗函数的短时信号,然后借助平稳的随机信号处理的理论来提取语音特征参数。2.3.2. 说话人识别的特征选取在说话人识别系统中特征提取是最重要的一环,特征提取就是从说话人的语音信号中提取出表示说话人的个性特征。提取的特征应能有效地区分不同地说话人,并且对同一说话人保持相对稳定。说话人识别系统中常用的特征有:由语音信号直接导出的参数:短时能量、短时平均幅度、短时平均过零率和基音频率。由于语音的短时谱中包含有激励源和声道的特性,因而可以反映说话人的差别。所以分析语音频谱导出说话人个人特征的参数:功率谱、基因轮廓、共振峰频率带宽及其轨迹、复倒谱、MEL倒谱系数等等。由语音信号的线性

50、预测分析也可得一些表示说话人特征的参数:基因频率、声道冲激响应、自相关函数、声道面积函数、线性预测系数(LPC)、LPC倒谱系数和线谱对参数(LSP)等,其中LPC倒谱系数有最好的识别效果。混合参数:为了提高系统的识别率,部分原因也许是因为究竟哪些参数是关键因素把握不充分,相当多的系统采用了混合参量构成的矢量。Matsui和Furui在与文本无关的说话人识别系统中利用倒谱系数、差值倒谱系数、基音频率、差值基因频率作为特征矢量,得到了比单用任意一个参数好得多的识别效果。2.3.3. 说话人识别的方法目前针对各种特征而提出的模式匹配方法的研究越来越深入。这些方法大体可归为下述几种:1、概率统计方法

51、语音中说话人信息在短时内较为平稳,通过对稳态特征如基音、声门增益、低阶反射系数的统计分析,可以利用均值、方差等统计量和概率密度函数进行分类判决。其优点是不用对特征参量在时域上进行规整,比较适合文本无关的说话人识别。2、动态时间规整方法(DTW)说话人信息不仅有稳定因素(发声器官的结构和发声习惯),而且有时变因素(语速、语调、重音和韵律)。将识别模板与参考模板进行时间对比,按照某种距离测定得出两模板间的相似程度。常用的方法是基于最近邻原则的动态时间规整DTW。3、矢量量化方法(VQ)矢量量化最早是基于聚类分析的数据压缩编码技术。Helms首次将其用于说话人识别,把每个人的特定文本编成码本,识别时

52、将测试文本按此码本进行编码,以量化产生的失真度作为判决标准。Bell实验室的Rosenberg和Soong用VQ进行了孤立数字文本的说话人识别研究。这种方法的识别精度较高,且判断速度快。4、隐马尔可夫模型方法(HMM)隐马尔可夫模型是一种基于转移概率和传输概率的随机模型,最早在CMU和IBM被用于语音识别。它把语音看成由可观察到的符号序列组成的随机过程,符号序列则是发声系统状态序列的输出。在使用HMM识别时,为每个说话人建立发声模型,通过训练得到状态转移概率矩阵和符号输出概率矩阵。识别时计算未知语音在状态转移过程中的最大概率,根据最大概率对应的模型进行判决。HMM不需要时间规整,可节约判决时的

53、计算时间和存储量,在目前被广泛应用。缺点是训练时计算量较大。5、人工神经网络方法(ANN)人工神经网络在某种程度上模拟了生物的感知特性,它是一种分布式并行处理结构的网络模型,具有自组织和自学习能力、很强的复杂分类边界区分能力以及对不完全信息的鲁棒性,其性能近似理想的分类器。其缺点是训练时间长,动态时间规整能力弱,网络规模随说话人数目增加时可能大到难以训练的程度。2.4. 本章小结本章对说话人识别系统作了一个简要介绍,首先介绍了人的语音的发声原理。然后分别分析了说话人识别系统的几个主要模块包括端点检测、语音增强、语音的预加重、加窗、分帧、特征提取、识别方法的国内外研究现状和目前采用的主要方法。第

54、3章 说话人识别的特征参数及其选取第3章 说话人识别的特征参数及其选取3.1. 引言1963年Bell实验室的S. Pruzansky1和1971年P. D. Breaker et al2提出了短时谱中的信息提供说话人特征。随后在1968年B. S. Atal3采用基音频率、1971年G. Doddington4提出共振峰频率、1972年M. R. Sambur7的线性预测系数(LPC)、1973年C. Lummis8的时域音栓配合法的语音响度、1973年S. Frurui和F. Itakura的语音对数域比例、1972年J. J. Wolf和1975年M. R. Sambur9从元音和鼻音中

55、提取出最好的说话人个人特征、1974年B. Atal10通过比较各种参数得出倒谱系数为说话人识别提供最好的结果。如今倒谱系数已经逐步成为说话人识别中的主打参数111213。3.2. 基音频率基音周期是语音信号最重要的参数之一。基音周期估计的方法很多,本设计采用了基于求短时自相关函数的算法。语音按其发生方式分为清音和浊音。发清音时,声道完全封闭,声道不受声门周期脉冲的激励而是利用口腔内存有的空气释放出来而发声,因而清音并没有基音。在作基音周期的估计时,必须先去除清音。本设计中利用语音信号的短时过零率来区分清浊音,一般而言,在相同条件下,清音的短时过零率分布的平均值最高。利用这一点,可以设一门限区

56、分清浊音。 (3-1)其中。短时自相关函数在基音周期的整数倍点上有很大的峰值,只要找到第一个最大值点的位置,便可估计出基音周期。作基音周期估计时,窗长至少应大于两个基音周期,才可能有较好的效果。另一方面,为了克服声道的共振峰特性的干扰,可以对语音信号进行非线性变换后再求自相关函数。一种有效的非线性变换是“中心削波”。若输入信号为x(n),中心削波的输出为y(n)=Cx(n),函数Cx如图 31所示。经过削波后的y(n)的自相关函数在基音周期点上的峰起更尖锐突出,因此用它来进行基音周期估计的效果可以好很多。图 31中心削波函数Cx求得的基音周期轨迹与真实的基音周期轨迹不可能完全吻合,实际上在一些

57、局部段落或区域中有一个或几个基音周期估值偏离了正常轨迹(称为野点),可以采用中值平滑算法和线性平滑算法去除这些野点。3.3. 线性预测编码(LPC)将线性预测(Liner Prediction)分析应用于语音信号处理,不仅是为了利用其预测功能,而且是它为我们提供了一个非常好的声道模型。线性预测系数(Liner Prediction Coefficient)是语音信号处理(语音编码、语音识别和说话人识别等)的非常重要的参数之一。按照图 21所示的语音产生模型,采用全极点模型,声道、声门激励及辐射的全部谱效应可以简化为一个时变的数字滤波器。其稳态系统响应函数为: (3-2)现在对这个模型在加以一些

58、限制以便于得到一种高效的求解算法。假定声道函数是一个全极点(Autoregressive,AR)模型,不考虑辐射的影响,则(3-2)可表示成: (3-3)其中是预测阶数,为是声道滤波器增益。由此,语音抽样值 和激励信号之间的关系可以用下面的差分方程表示: (3-4)即语音样点之间有相关性,可以用过去的样点值来预测未来样点值。对于浊音,激励是以基因周期重复的单位冲激;对于清音,是白噪声。称作逆滤波器,传输函数为: (3-5)设增益为1,预测误差为: (3-6)要解决的问题是:给定语音序列,根据特定的准则求预测系数的最佳估计值,现在以最小均方误差准则作为估计模型参数的准则求.短时平均误差定义为:

59、(3-7)对求偏导,并且令其为零,有 (3-8)上式表明采用最佳预测系数时,预测系数与过去的语音样点正交。记为: (3-9)则有: (3-10)上式称为LPC正则方程,希望找到一种有效的方法求解这组包含P个未知数的P个方程,就可以得到在语音段上使均方误差最小的预测系数,.利用式(3-6)和(3-7),最小均方预测误差可以表示成: (3-11)或 (3-12)语音信号具有短时平稳性,在一个短时段(一般20ms左右)上可以认为是平稳的。一般可分帧求取语音序列的LPC系数。对于公式(3-7)的LPC正则方程,已经有了一些高效的递推算法求解。其中主要有杜宾(Durbin)算法、格型算法和舒尔递推算法(

60、Schur)。下面给出文本采用的杜宾算法的计算步骤,:给定的预测的阶数P1、计算,其中,是加窗后的语音序列2、计算3、计算4、计算5、令m=2;计算6、计算7、计算判断m是否小于P,若是,则令m=m+1,转入7继续运行;若否,则停止运行并输出作为最后计算结果。3.4. 复倒谱和倒谱通常的加性信号可用线性系统来进行处理,但许多信号中的组成分量的组合并不按加法组合原理组合。如图象信号、地震信号、通信中的衰落信号、调制信号和语言信号。显然这时不能用线性系统来处理,而必须采用满足该组合规则的非线性系统来处理。非线性系统的分析非常困难。因此我们必须将非线性问题转化为线性问题来处理。而非线性信号中有乘积组

61、合和卷积组合。由于语言信号是声门激励信号和声道响应的卷积结果,因此这里处理卷积组合的情况。首先我们用表示声门激励信号,表示声道响应,则语音信号可表示为,所以它又可以写为。现今我们必须通过一个系统将它由卷积组合变为线性组合,设该系统为。则:图32 卷积组合变为线性组合系统粗略图现在分析怎样的可以使得为线性组合:一种使卷积形式变为乘积形式的方法就是变换,即 (3-13)其中、。然后可以利用对上式两边同时求对数可将乘积形式转变为加性形式: (3-14)其中、。这时便成了加性信号了,最后还原即对求变换: (3-15)可把上述过程用图 33表示如下: 图 33卷积组合变为线性组合详解图所得结果称为复倒谱: (3-16)其中的变换为:,可以表示为。对它求对数得: (3-17)上式的复对数运算中,虚部是相角,它存在多值性的问题。为确保定义的唯一性,通常要用上约束条件,不同的约束条件将产生不同的结果,后面将作具体的展开。这里我们先忽略的相位,仅考虑它的模,那就是: (3-18)称为倒频谱(Cepstrum),也简称为倒谱。从变换的性质可知,倒谱是复倒谱的偶部(实部),即:。下面分析复倒谱的性质:为了便于阐述,先分析信号的变换为有理函数的情形。一般信号的变换都可近似地用一个有理函数表示,其一般形式为:

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!