本科论文虚拟仪器技术语音识别系统

上传人:沈*** 文档编号:78480324 上传时间:2022-04-21 格式:DOC 页数:64 大小:1.42MB
收藏 版权申诉 举报 下载
本科论文虚拟仪器技术语音识别系统_第1页
第1页 / 共64页
本科论文虚拟仪器技术语音识别系统_第2页
第2页 / 共64页
本科论文虚拟仪器技术语音识别系统_第3页
第3页 / 共64页
资源描述:

《本科论文虚拟仪器技术语音识别系统》由会员分享,可在线阅读,更多相关《本科论文虚拟仪器技术语音识别系统(64页珍藏版)》请在装配图网上搜索。

1、学士学位论文1 绪论语音是人类进行相互通信和交流的最方便、最快捷的手段。在高度发达的信息社会中,用数字化的方法进行语音的传送、储存、识别、合成、增强等是整个数字化通信网络中最重要、最基本的组成部分之一。非特定人连续语音识别在电话拨号系统、家电遥控、工业控制、信息查询系统等领域有广泛应用。在本文中,将虚拟仪器技术应用于语音识别系统,实现了仪器的软件化,真正体现了“软件就是仪器”的思想。利用计算机强大的图形环境和硬件资源建立的图形化的虚拟仪器面板,实现对语音信号的实时采集、分析处理与特征提取等,利用软件实现仪器功能的模块化、智能化,使其具有成本低廉、数据分析便利和设备管理良好等优点。本章综述了语音

2、识别技术的学科背景、发展历程,介绍了当前语音识别领域的主流技术、典型系统及其应用前景,特别分析了汉语语音识别的难点,阐明了本论文的研究框架和内容。1.1 语音识别的学科背景与发展历程语音是人类最自然、最常用的交流方式,语音识别是近半个世纪发展起来的新兴学科,其目标是使机器“听懂”人的自然语言。由识别得到的信息可作为控制信号在工业、军事、交通、医学、民用等各个方面都有着广阔的应用前景,例如声控电话交换、语音拨号系统、各类语音声讯服务(股票信息、天气预报等)、智能玩具、语音呼叫中心等。语音识别技术将大大改善人机交互界面,提高信息处理自动化程度,具有巨大的社会、经济效益。正因为如此,语音识别正迅速发

3、展为“改变未来人类生活方式”的关键技术之一。作为专门的研究领域,语音识别又是典型的交叉边缘学科,它要依赖众多学科的科研成果。从计算机学科角度来看,它属于智能计算机的智能接口部分;从信息处理学科来看,它属于信息识别的一个重要分支;从通信及电子系统、电路、信号及系统定学科来看,它又可视为信息和通讯系统的信源处理科学;而从自动控制学科来看,它则可堪称模式识别中的一个重要部分-时序模式识别;此外,语音识别与声学、生理学、心理学、语音学、语言学有着密不可分的联系,而且语音识别与语音压缩、语音合成、语音增强、说话人识别等语音研究有着更为直接、紧密的关系。语音识别是颇具挑战性的研究领域,仅从模式识别角度来看

4、,语音信号属于瞬时事件性信号,同时它又是时变的非平稳随机过程,有内在的多种可变性,这使得语音识别成为多维模式识别中一个很难的课题。语音识别系统根据对语音方式要求的不同,可以分为孤立字(词)语音识别系统,连接词语音识别系统以及连续语音识别系统;根据对说话人的依赖程度,可以分为特定人和非特定人语音识别系统;根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。不同的语音识别系统,虽然实现细节有所不同,但所采用的基本框架相类似,其关键技术主要包括特征提取技术、模式匹配和数据训练技术三个方面。语音识别的研究工作大约开始于20世纪50年代,当时AT&T贝尔实验室实现了第一个可

5、识别10个英文数字的语音识别系统。60年代,这时期的重要成果是提出了线性预测分析技术(LP)和动态规划(DP),前者较好的解决了语音信号产生模型的问题,后者则有效解决了不等长语音匹配问题,对于语音识别发展产生可深远的影响。70年代语音识别领域取得了突破:在理论上,LP技术得到进一步发展,DTW(Dynamic Time Warp)技术基本成熟,特别是提出了矢量量化(VQ)和隐马尔科夫模型(HMM)理论;在实践上,实现了基于LPC和DTW技术型结合的特定人孤立语音识别系统。80年代,语音识别研究进一步走向深入,其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。语音识别算法从

6、模版匹配技术转向基于统计模型技术,语音模型也从规则描述转向统计描述。连接词语音识别系统、连续语音识别系统相继出现,其中1998年美国CMU大学基于VQ/HMM开发的997词非特定人连续语音识别系统SPHINX具有里程碑的意义。 90年代以来,语音识别技术在多项关键技术上更加成熟,同时在计算机技术、电信应用等领域飞速发展的带动下,出现了一批走向实用化的语音识别系统和语音服务应用。在嵌入式应用中,出现了可以语音拨号的手机、与人对话的智能玩具;在计算机应用中,出现了以IBM Via-Voice为代表的语音录入系统;在商业服务中,出现了以语音识别、语音合成为核心技术的呼叫中心(Call Center)

7、、语音门户网站等等。目前,语音识别研究时仍以HMM为主流,同时出现了多种技术方向并存的局面。特别是在语音识别系统的框架设计上、在实践序列建模上、在融合多层信息源的能力上,HMM仍有着很大的优越性。大多数语音识别系统以HMM为主框架,在系统局部辅以其他技术手段加以优化,例如通过采用听觉模型提取鲁棒性更高的声学特征,在HMM系统的底层利用ANN的非线性影射能力区分较小的语音单元(音素级)等等。1.2 汉语语音识别的难点经过50多年的发展,语音识别技术经历了从特定人、小词汇量、孤立词的语音识别到非特定人、大词汇量、自然语音识别的发展过程,取得了辉煌的成就。但是,现有的语音识别系统还面临着许多困难,远

8、远达不到广泛实用化的要求,具体来说,主要表现在以下几个方面:(1)语音识别系统的适应性差。全世界有近百种官方语音,每种语音有多达几十种的方言,随着语言环境的改变,系统性能会严重下降。(2)噪声问题:目前的语音识别系统大多只能工作在安静的环境下,在受环境噪声干扰时,语音识别系统性能变差。(3)端点检测:连续语流中语音单元间存在协同发音(co-articulation),且各语音单位之间不存在明显的边界,因此很难分割。语音信号的端点检测是进行语音识别的重要部分,研究表明,即使在安静的环境下,语音识别系统一半以上的识别错误来自端点检测。(4)由于对人脑的记忆、听觉的神经生理学机理没有彻底的认识,使语

9、音识别技术没有突破性进展。汉语语音识别除具有一般语音识别系统的特点外,还有其独特的方面,因为汉语发音与英语发音比较有以下特点:(1)汉语字以单音节(Syllable)为单位,发音时间短,而英语以多音节为主。(2) 汉语有大量的同音字,由60个左右的声母和韵母组成40多个无调音节和1200多个有调音节,音节与音节之间相似性大、易混淆。英语则不存在这方面的问题。(3)中国民族众多,不同地区之间发音变化很大,方言多。基于以上原因,与比较成熟的英语语音识别相比,汉语语音识别仍是一个富有挑战性的课题。1.3 虚拟仪器简介虚拟仪器(Virtual Instrument,简称VI)是现代计算机技术和仪器技术

10、深层次结合的产物,是当今计算机辅助测试(CAT)领域的一项重要技术。虚拟仪器是计算机硬件资源、仪器与测控系统硬件资源和虚拟仪器软件资源三者的有效结合。所谓虚拟仪器,就是在通用计算机为核心的硬件平台上,由用户设计定义、具有虚拟面板、测试功能由测试软件实现的一种计算机仪器系统。使用者用鼠标点击虚拟面板,就可操作这台计算机系统硬件平台,就如同使用一台专用电测量仪器。虚拟仪器的特点可归纳为:(1)在通用硬件平台确定后,由软件取代传统仪器中的硬件来完成仪器的功能。(2)仪器的功能是由用户根据需要由软件来定义的,而不是事先由厂家定义好的。(3)仪器性能的改进和功能扩展只需进行相关软件的设计更新,而不需购买

11、新的仪器。(4)研制周期较传统仪器大为缩短。(5)虚拟仪器开放、灵活,可与计算机同步发展,可与网络及其它周边设备互联。决定虚拟仪器具备上述传统仪器不可能具备的特点的根本原因在于:“虚拟仪器的关键是软件”。LabVIEW(Laboratory Virtual Instrument Engineering Workbench,实验室虚拟仪器工程平台)是美国NI公司(National Instrument Company)推出的一种基于G语言(Graphics Language,图形化编程语言)的虚拟仪器软件开发工具。LabVIEW软件工具的特点可归纳为:(1)图形化的编程方式,无须写任何文本格式的

12、代码,是真正的工程师语言。(2)提供了丰富的数据采集、分析及存储的库函数。(3)既提供了传统的程序调试手段,如设置断点、单步运行,同时又提供了独到的高亮执行工具,使程序动画式运行,利于设计者观察程序运行的细节,使程序的调试和开发更为便捷。(4)32bit的编译器编译生成32bit的编译程序,保证数据采集、测试和测量方案的高速执行。(5)囊括了DAQ、GPIB、PXI、VXI在内的各种仪器通信总线标准的所有功能函数,使得不懂总线标准的开发者也能够驱动不同总线标准接口设备与仪器。(6)提供大量与外部代码或软件进行连接的机制,诸如DLLs(动态连接库)、DDE(共享库)、ActiveX 等。用Lab

13、VIEW设计的虚拟仪器主要包括三个部分:(1)仪器前面板的设计仪器前面板的设计指在虚拟仪器开发平台上,利用各类子模板图标创建用户界面,即虚拟仪器的前面板。(2)仪器流程和算法的设计仪器流程或算法的设计是根据仪器功能要求,利用虚拟仪器开发平台所提供的子模板,确定程序的流程图、主要处理算法和所实现的技术方法。(3)I/O接口仪器驱动程序的设计I/O接口仪器驱动程序是控制硬件设备的驱动程序,是连接主控计算机与仪器设备的纽带。用LabVIEW设计的虚拟仪器可脱离LabVIEW开发环境,最终用户看见的是和实际的硬件仪器相似的操作面板。1.4 MATLAB语言MATLAB语言1是在20世纪80年代初期,由

14、美国的Math Works软件开发公司正式推出的一种数学工具软件。它拥有功能全面的函数库,把大量的函数封装起来,让用户脱离了复杂繁琐的程序计算过程,大大提高了工作效率。利用MATLAB可以实现科学计算、符号运算、算法研究、数学建模和仿真、数据分析和可视化、科学工程绘图以及图形用户界面设计等强大功能。同时MATLAB为用户提供了丰富而实用的资源,它涵盖了许多门类的科学研究,如数学、控制、通信、数字信号处理、数字图像处理、经济和地理等。其主要特点有:(1)简单易学。与C和FORTRAN等高级语言相比较,MATLAB语法规则简单,语言思维特点更符合人们在实际应用中的习惯。(2)先进的技术界面支持。M

15、ATLAB提供给用户的是一种最简洁、最直观的程序开发环境。用MATLAB编程时,就如同在现实中的便签上列公式和求解一样。(3)开放式的体系结构。除了内部函数外,所有的MATLAB主包文件和各工具包文件都是对用户开放的源程序文件,用户可以通过修改源程序文件来构成新的适合自己使用的专用工具包。(4)丰富的函数工具箱。可以提供专门的对语音信号进行处理的工具箱。对于比较简单的和“一次性”问题,通过直棂窗中直接输入一组指令求解或许是比较简便、快捷的。但当待解决问题所需的指令较多而且所用指令结构较复杂时,或当一组指令通过改变少量参数就可以被反复使用去解决不同问题时,直接在直棂窗中输入指令的方法就显得繁琐、

16、累赘和笨拙。设计M脚本文件就是用来解决这个矛盾的。M脚本文件是指:(1)该文件中的指令形式和前后位置,与解决同一个问题是在指令窗中输入的那组指令没有任何区别。(2)MATLAB在运行这个脚本时,只是简单地从文件中读取那一条条指令,送到MATLAB中去运行。(3)与在指令窗中直接运行质量一样,脚本文件运行产生的变量都驻留在MATLAB基本工作空间中。(4)文件的扩展名是“.m”。其具体步骤如下:1) 编辑调试器的开启缺省情况下,M文件编辑器(Editor/Debugger)不随MATLAB的启动而开启,通常只在编写M文件时才启动如图的M文件编辑器窗口。M编辑器不仅可以编辑M文件,而且可以对M文件

17、进行交互式调试;M文件编辑器不仅可以处理带.m扩展名的文件,而且还可以阅读和编辑其他ASCII码文件。M文件编辑器的启动方法有以下几种:点击MATLAB桌面上的“”图标,或选中菜单项File:New:M-File,可以打开空白的M文件编辑器。点击MATLAB桌面上的“”图标,或选中菜单项File:Open,可引出Windows平台上标准的“Open”文件选择对话框,通过常规的工具条操作,找到待打开文件所在文件夹,点选那个文件名后,再点击打开键,就可引出相应文件夹的M文件编辑器。用鼠标左键双击当前目录窗口中的所需M文件,可直接引出展示相应文件加的M文件编辑器。2) 编辑器使用中的注意事项(1)编

18、辑器的打印效果设置。具体方法是:选中菜单项File:Page setup,引出一个页面设置对话框,可以对版面布局(Layout)、版头(Header)、字体(Fonts)等参数进行设置。“Layout”版面布局子项:勾选“Print header”,则打印的硬拷贝将出现页眉,显示文件所在的全部路径、文件建立日期、页数。“Header”版头设置子项:设置版头的具体形式,如页数的显示方式、版头的边界与布局等参数进行设置。“Fonts”字体设置子项:假如不点选“Use editor font”,那么硬拷贝中的字体将可能与编辑器显示的字体不同。通常硬拷贝中的字体较大。(2)编辑器的字体(形式、大小、颜

19、色)、段落格式、自动保存等都可由用户根据需要进行设置。具体方法是:选中菜单项File:Preferences,引出一个参数设置对话框;展开弹出对话框左栏中的“Editor/Debugger”项,出现以下4个子项。“Font&Colors”子项:在对应该项的右侧栏中,可以对字体类型、大小、颜色进行设置。“Display”子项:假如勾选“Enable datatips in edit mode”,那么将来当光标移动到该编辑器文件中某变量名时,就会引出一个现场菜单,显示出该变量内容的前提是,改变量存在于MATLAB的工作空间。“Keyboard & indenting”子项:对应栏用来设置快捷键习惯

20、和文件段落缩进习惯。“Autosave”子项:编辑器窗口中的文件发生改动后,文件会自动地进行备份。通过该子项中的“Save options”栏,可以设置自动备份的时间间隔等。说明:1运行M文件的方法很多,最常用的方法是:(1)在指令窗中运行M文件名(不带扩展名);(2)在当前目录窗中,用鼠标右键单击待运行文件,再从引出的现场菜单中选择Run菜单项。2脚本文件第一注释行中的文件名应与实际存放在目录上的文件名相同。但这样做的目的仅是为了管理上的一致,也便于用户记忆和查询。实际上,*.m的存放和调用与注释行中的名称无关。3当使用M文件编辑器调试保存文件时,或当在MATLAB指令窗中运行M文件时,不必

21、写出文件的扩展名.m。4在M文件编辑调试器中,可用汉字注释,并总可获得正确显示。5注意:在MATLAB中,若发生汉字输入困难,可用鼠标右键点击,引出现场菜单;选中“属性”菜单项,引出“对话框”,或采取在微软输入法中勾选“逐键指示”,或在智能输入法中勾选“固定”。1.5 论文的主要内容及其组织全文具体安排如下:第一章介绍了语音识别的学科背景与发展历程,汉语语音识别的难点,本试验的软件平台,以及本文选题的依据和内容安排。第二章介绍了语音信号的实时采集及预处理,对语音信号的产生与数字化进行了分析,并详细介绍了语音信号的小波消噪及端点检测。第三章介绍了语音信号的特征提取,其中对当前应用较广泛的MFCC

22、特征参数提取过程做了详细的讨论。第四章介绍矢量量化模型(VQ)及其码本生成的基本原理,并对搜索算法进行了初步分析。第五章介绍了非特定人连续语音识别系统的实现问题,介绍了系统的具体设计步骤,及其模板的建立与读取,并对试验结果进行了分析。2语音信号的采集与预处理本章主要介绍了语音信号的实时采集及预处理过程,包括对语音信号的数字化及预加重,并对语音信号的产生与数字化进行了分析,详细讨论了语音信号的小波消噪及端点检测。2.1 语音信号的采集 2.1.1 语音信号的产生模型语音信号是一种典型的非平稳信号。但是,由于语音的形成过程是与发音器官的运动密切相关的,这种物理运动比起声音振动速度来讲要缓慢的多,因

23、此语音信号常常可假定为短时平稳的,即在10-20ms这样的时间段内,其频谱特性和某些物理特性参数可近似的看作是不变的2。这样,可以采用平稳过程的分析处理方法来处理,以后所有的处理方法都立足于这种短时平稳的假定。图2.1所示框图描述了语音信号的产生过程。语音信号可以看作是激励信号激励一个线性系统而产生的输出3-5。浊音信号是由一个周期性的脉冲串激励一个线性系统而产生的输出,这个线性系统由声门脉冲模型、声道模型和辐射模型级联而成。而清音信号是由白噪声序列激励一个线性系统而产生的出,这个线性系统仅由声道模型和辐射模型级联而成。图2.1 语音信号产生的线性模型浊音信号产生过程受声门脉冲形状g(n)、声

24、道响应v(n)和口唇辐射影响r(n)的共同作用,可等效为一个线性系统,称为声道系统,即: (2.1)其中,运算符号*代表卷积运算(下同)。相应的Z变换为: (2.2)而将激励信号看作是一个周期性的脉冲串: (2.3)那么浊音信号就是二者的卷积结果,即: (2.4)类似地,清音产生过程中声道响应v (n)和口唇辐射影响r (n)的共同作用可等效为一个线性系统: (2.5)相应的Z变换为: (2.6)而激励信号u (n)假定为白噪声序列,于是有: (2.7)2.1.2 语音信号的采集自然语音信号是连续模拟信号,无法对其做数字化处理,因此需要将模拟信号转化为数字信号,这个过程叫做模/数转换。正常人的

25、发音的频率范围在40Hz到3400Hz左右,根据奈奎斯特采样定律(Nyquist Sampling Theorem),采样频率应为原始语音频率的两倍以上,通常采用8KHz采样率(G.711标准)。将模拟音频信号转化为数字音频信号需要声音采集卡(声卡)的支持,不同声卡信噪比等指标差异较大,所以质量较高的声卡采集的语音信号对系统的识别率也有一定的影响。 本文采用电脑自带的声卡进行了语音信号的采集,采集的语音信号以8KHz,16位,单声道格式录入存储,从而得到了需要的*.wav文件。语音信号的采集显示见图2.2,其程序框图如图2.3所示。图2.2 语音信号采集显示的前面板图图2.3 语音信号采集显示

26、的程序框图2.1.3 语音信号的数字化语音信号的数字化一般包括放大及增益控制、反混叠滤波、采样、A/D变换及编码。其中反混叠滤波的目的有两个:(1)抑制输入信号各频域分量中频率超出f /2的所有分量(人为采样频率),以防止混叠干扰;(2)抑制50Hz的电源工频干扰。在本文中由麦克风将所用的语音从声压波形转换成电信号,然后用模数转换器以合适的采样率对模拟的声音信号进行采样,再以一定的量化精度进行量化,得到计算机能够处理的数字语音信号。为了防止混叠效应,采样频率必须满足Nyquist采样定理,常用的采样频率有fs1=8KHz, fs2=11KHz, fs3=16KHz等,在本文中采样率为8KHz。

27、将原始语音模拟信号变为数字信号,必须经过采样和量化两个步骤,从而得到时间和幅度上均为离散的数字语音信号。根据采样定理,当采样频率大于信号的两倍带宽时,采样过程不会丢失信息,利用理想滤波器可从采样信号中不失真地重构原始信号波形。在将语音信号进行数字化前,必须先进行防混叠滤波,滤除高于1/2采样率的信号成分或噪声。这种防混叠滤波通常与模数转换器做在一个集成块内,因此目前来说,语音信号的数字化的质量还是有保证的。市面上购买到的普通声卡在这方面做的都还可以,语音声波通过话筒输入到声卡后直接获得的是经过防混叠滤波、A/D变换、量化处理的离散的数字信号。2.2 语音信号的小波消噪处理许多情况下,我们所获得

28、的语音信号是被污染的,即在我们所采集的语音信号中掺杂着噪声,干扰了语音信号中携带的有效信息,影响了我们的听辨。尤其在实时采集过程中,由于线路带宽的限制,语音信号的采样频率往往比较低,加上周围设备产生的电噪声、冲击噪声和实验室环境的影响,使得语音信号的质量有时很低,所以需要对语音信号进行消噪处理,提高其听辨质量6。通常我们把噪声分为以下几种:带通噪声、冲激噪声、白色噪声等。(1) 带通噪声,也叫有色噪声,在某个频带上,信号的能量突然变大,比较典型的为交流电噪声,它的能量主要集中在50Hz左右。(2) 冲激噪声,其能量在时域内会突然变大。(3) 白色噪声,是在频域上不存在信号能量突然变大的频带,在

29、时域上也找不到信号能量突然变大的时间段,即它在频域和时域上的分布是一致的。对于标准白噪声,它的均值为零,方差为一个常数,即。传统消噪方法对前两种噪音的去除有很好的效果,但对于白噪声,既不能在某个频段上修改语音信号,也不能在时频内修改语音信号。使用太多消噪方法都很难达到令人满意的效果,使得语音信号的信噪比不但没有提高,反而会引起原语音信号的严重失真。其主要原因有下面两点:(1) 白噪声频带很宽,几乎占据了整个频域,与语音信号相互重叠,且没有规律性,无法准确区分语音和白噪声。(2) 语音信号是一种准周期的随机信号,特别是语音信号中的清音部分,其性质同白噪声差不多,很难区分。小波消噪的基本思想是根据

30、噪声与信号在各尺度(即各频带)上的小波谱具有不同表现这一特点,将各尺度上由噪声产生的小波谱分量,特别是将那些噪声小波谱占主导地位的尺度上的噪声小波谱分量去掉,则保留下来的就是原信号的小波谱,此过程可称为小波谱的重构或还原,然后再利用小波变换重构算法,重构出原信号。2.2.1 小波变换的消噪方法本文提出了基于小波变换的硬阈值滤波法 7,先对语音信号进行小波变换,经过小波变换后语音信息主要集中在小波变换尺度较大的低频部分,而白噪声主要集中在小波变化尺度较小的高频部分,然后对各子波信号设定一个阈值,根据子波信号的阈值大小调整子波信号,最后对调整过的子波信号进行小波反变换就得到消噪后的语音信号。调整阈

31、值可以获得满意的消噪处理结果。由以上分析可知,小波消噪的关键是如何滤除由噪声产生的小波谱分量。针对语音信号中各种噪声类型,给出了相应的基于小波变换的消噪方法。(1) 对含噪的语音信号进行小波变换,得到各个不同频带的子波信号,将语音信号和白噪声粗略分开。第一步:确定小波基。由于不同的小波基在时域和频域上的局部性能不同,使得小波变换在时域和频域上表征信号局部特点的能力不同,所以选择适当的小波基就显得特别重要。Daubehies小波、Symlets小波、Coiflet小波是集中非常常见的小波基。他们表征信号局部特点的能力都比较强,有利于检测信号的瞬态或奇异点,所以语音消噪中常常会使用这些小波基。第二

32、步:确定小波基的阶数。对于某种特定的小波基,阶数的不同表征信号局部特点的能力也不同。一般阶数越高表征信号局部特点的能力就越强,但计算量会相应变大,而且实验表明对于以上提到的三种小波基,当阶数高于5时,提高小波基阶数对提高小波基表征语音信号局部性能力的影响并不大。所以在实际操作过程中不会选取太高的小波基阶数,一般选取5到8阶左右。第三步:确定小波变换次数。根据语音信号和白噪声信号的小波变换的模极大值与李氏指数之间的关系可以知道,语音信号的小波变换模极大值随着小波变换尺度的增大而增大,白噪声的小波变换模极大值随着小波变换尺度的增大而减小。所以,当语音信号中白噪声含量多时,小波变换尺度要大一些,即小

33、波变换次数要多一些,但计算量也会相应变大;当语音信号中白噪声含量少时,小波变换尺度可以小一些,即小波变换次数可以少一些,计算量也会相应减少。第四步:小波变换。根据以上对小波变换参数的介绍,选定合理的参数进行小波变换,就可得到各个不同频带的子波信号。(2) 确定各层子波的滤波阈值。选取阈值是否适当对消噪效果影响很大。本文确定阈值的方法如下: (2.8)(3) 滤波。确定阈值后就可以对各个子波信号进行滤波,公式描述如下: (2.9) 其中为滤波后的子波信号。(4) 小波反变换。对已经处理过的各个子波信号进行反变换就可以得到消噪后的语音信号,即干净的语音信号段。2.2.2 小波消噪方法的分析小波分析

34、是一种有效的信号分析处理技术,它在时域和频域同时具有良好的局部化特性,既能够在整体上提供信号的主要特征,又能提供任一局部时间或频域内信号变化剧烈程度的信息,因而成为分析非平稳信号的锐利工具。实验结果表明,小波变换语音增强较以往的传统消噪方法具有以下的优点:(1) 小波变换在低信噪比情况下的消噪效果较明显,增强后语音的识别率较高,为应用提供了极大的方便。(2) 小波变换方法特别适合于时变信号和突变信号的消噪,因此能够较好地应用到语音消噪中去,这是传统的消噪方法无法比拟的。同时,小波消噪也存在一定的缺陷:(1) 计算量较大,并且在应用中要根据实际的采样率改变离散小波变换的尺度范围。(2) 滤波时阈

35、值的选择在很大程度上影响了消噪后的效果。综上所述,小波变换为语音这样一种非平稳信号中的信噪分离提供了新的滤波方法。对输入语音信号进行适当的降噪处理非常有必要,处理效果的好坏直接影响到语音识别系统的识别率,意义重大。随着理论的完善和实践的深入,小波消噪方法将逐渐成熟,并获得更加广泛的应用。2.3 语音信号的预处理语音信号的预处理过程一般包括预加重处理、分帧处理、加窗处理、端点检测几个部分,如图2.4 描述了整个预处理过程。图2.4 语音信号预处理过程示意图2.3.1 语音信号的预加重预加重是对信号进行平滑,即高频提升。因为从唇端产生的声音随着频率的增加会有一个6dB/倍频程幅度率递减8 ,所以在

36、提取特征前需要对语音信号作+6dB/倍频程的高频提升,这样使得语音全通带输出占有相同的电平范围。因此预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中能用同样的信噪比求频谱,以便于频谱分析或声道参数分析。一般地,预加重是在语音信号数字化之后,在参数分析之前。在计算机里用具有6dB/倍频程提升高频特性的预加重数字滤波器来实现,它一般是一阶的数字滤波器: (2.10)其中的值一般在0.94-0.98之间,在本文中取0.970。2.3.2 语音信号的分帧及加窗处理语音信号具有短时稳定性,即语音信号为非平稳信号,但在10-50ms内可认为是平稳的。故可以把语音信号分为一个个

37、语音分析帧,以便于作短时分析,从而进行语音特征值的计算。若每帧信号有N个样本点,各帧间位移为M点,则第i帧,第n个样本语音信号与原始语音信号的关系为: (2.11)式中在本文中采样率为16KHz,帧长N为256点,帧间位移M为128点,其中采用帧间位移是为了解决时、频域对帧长选择的不同要求 9,10。为了得到短时的语音信号,要对其进行加窗操作,使窗函数平滑地在语音信号上滑动,从而将语音信号分成帧。在语音信号数字处理中常用的窗函数是矩形窗、汉明窗和汉宁窗,它们的表达式如下(其中N为帧长):矩形窗: (2.12)汉明窗: (2.13)汉宁窗: (2.14)由于窗函数一般取为中间大两头小的光滑函数,

38、这样冲激响应所对应的滤波器具有低通特性,其带宽和频率响应取决于窗函数的选择。在本文中选用了汉明窗。这样,经过上面介绍的处理过程,语音信号就已经被分割成一帧一帧的加过窗函数的短时信号,然后再把每一个短时语音帧看成平稳的随机信号,利用数字信号处理技术来提取语音特征参数。在进行处理时,按帧从数据区中取出数据,处理完成后再取下一帧,以此类推,最后得到由每一帧参数组成的语音特征参数时间序列。2.3.3 语音信号的端点检测 语音信号录制进来后,不论是识别单字还是识别连续字都必须做语音分段,即语音端点检测,找出语音段的开始和结尾,这可借助于语音信号的短时能量和过零率。有声语音的能量值较大,无声语音(如摩擦音

39、)的过零率较高11,因此可以通过计算短时能量大致判断出语音的端点,然后使用过零率找到语音端点的相对精确位置,分解出每一个语音段。从背景噪声中找出语音的起止点,是语音处理中最基本的问题。通常的语音端点检测中,都是分别用短时能量和短时平均过零率作为是否超过阈值,再通过“与”和 “或”运算作是否为语音端点的判定。除非是在信噪比较高的声学环境中,这种方法对语音信号有无分辨能力都不是很理想的。近年来,在语音信号的预加重、分帧和加窗处理后,用基于能量及过零率改进的相应起止点识别方法和状态转移法可以进行有效的语音判别。其中有效语音段截取是语音预处理的重要一步,端点检测的准确性对识别的效率和结果有直接影响11

40、。整个语音信号的端点检测可以分为四段:静音、过渡段、语音段、结束。程序中使用一个变量来表示当前所处的状态。在静音段,如果能量或过零率超过了低门限,则开始标记起始点,进入过渡段。在过渡段,由于参数的数值比较小,不能确信是否处于真正的语音段,因此只有两个参数的数值都回落到低门限以下,就将当前状态恢复到静音状态。如果在过渡段中两个参数中的任何一个超过了高门限,就可以确信进入语音段了。一些突发性的噪声也可能引起短时能量或过零率的数值很高,但不能持续足够长的时间。如门窗的开关、物体的碰撞等引起的噪声,这些都可以通过设定最短时间门限来判别。当前状态处于语音段时,如果两个参数的数值降低到低门限以下,且总的计

41、时长度小于最短时间门限,则认为这是一段噪音,继续扫描以后的语音数据。否则就标记好结束端点,并返回。图2.5完整的描述了系统实现端点检测的程序流程: 图2.5 硬件实现端点检测程序流图下面将逐一介绍短时能量法、过零率法和能频值法。1、 端点检测的短时能量法语音信号的短时能量反映了语音信号幅度随时间的变化,计算公式为12: (2.15)亦可表示为: (2.16)其中。此式表明,短时能量相当于语音信号平方通过一个单位函数相应为h(n)的线性滤波器的输出。 由于式(2.15)是卷积形式的,因此可以理解为离散信号经过一个单位脉冲的FIR低通滤波器产生的输出。为使算法简化,避免它对高信号电平的敏感,采用平

42、均幅度函数:来代替短时能量函数12。这时能量的主要意义在于,能量函数可用来大致定出浊音语音变为清音语音的时刻,可用来区分声母与韵母,无声与有声。2、 端点检测的短时过零率法 离散时间情况下,若相邻的抽样具有不同的代数符号,就称为发生了过零。一段语音波形中,单位时间内信号通过零线的次数称为过零率。它可作为信号频率的一个度量。由于语音信号是宽带信号,故采用了短时平均过零率来粗略估计其谱特性13。具体计算公式为: (2.17)其中 (2.18) (2.19)语音信号中,浊音语音能量集中在较低的频率段内 (3KHz以下),清音语音能量多集中在较高频率段内,而频率的高低又意味着过零率的高低 ,所以据此可

43、以大致判断出清音与浊音。3、 端点检测的能频值法能频值(EFV, Energy Frequency Value)定义为:短时能量乘上短时过零率。因为汉语音节具有简单的声韵母结构,声母具有比较高的过零率,能量比较低,韵母具有比较高的能量,过零率比较低,这样能频值既顾及了声母的高过零率又顾及了韵母的高能量,从而提高了语音信号与背景噪声的分辨力。实验表明能频值是一个很好的参数,有着较好的稳定性和较高的语音噪声分辩力。使用能频值进行语音端点检测和音节切割使得系统更接近于连续语音识别13,14。这种方法相当于在传统方法中,以背景噪声的短时能频值为基准对绝对门限阈值作调整;另外,对语音的分帧考察使端点检测

44、具有整体性和连续性,而不像传统方法那样逐点进行考察。因而该方法对环境的适应能力很强13。能频值端点检测的算法步骤如下:(1) 按语音帧计算短时能量和短时过零率,并计算两者乘积得到短时能频值序列;(2) 对能频值序列进行中值平滑的滤波17,即可以得到平滑后的能频值序列,;(3) 对于某一时刻,其对应的能频值为,寻找满足下式的能频值峰点,且 (2.20)式中为寻找峰点时的最大帧数;(4) 算比值r (2.21)(5) 如果 (为相对门限阈值),则时刻对应的语音不是起点,令,转(3);否则,就认为时刻对应的语音为起点,语音终止点的判定与此类似,只是判定时从时刻向前搜索。3 语音信号的特征提取语音信号

45、的特征提取是语音识别的基础,是关系到识别系统性能好坏的一个关键技术,语音特征向量选择的好坏会直接影响识别系统的性能。特征提取的基本思想是将预处理过的信号通过一次变换,去掉冗余部分,而把代表语音本质的特征参数抽取出来。此后所有处理都是建立在特征参数之上的,一旦特征参数不能很好的反映语音信号的本质,识别就不能成功。连续语音识别系统所用的特征包括:(1) 语音帧能量;(2) 基音周期:现已证实,基音周期及其派生参数携带有较多的个人特征信息,特别是对汉语这种“有调”语种,一个字的基音周期的变化即声调,就是一种重要的相当稳定的个人特征参数;(3) 帧短时谱或BPFG(附听觉特征处理)特征(包括1416B

46、PF):采用滤波器组获得频谱信息;(4) 共振峰频率及带宽;(5) 鼻音联合特征:对于连续语音,由于发音时声道形状等随时间变动存在惯性,任一时刻的声道形状不但与该时刻所发的音素有关,也与邻近时刻的音素有关,此现象称为发音的联合现象。经试验分析得知,此联合性体现在帧特征上随着人的不同差异较大,因而可以利用它来识别是否为正确的语音信号。尤其对于鼻音此性质较为突出;(6) 谱相关特征:短时谱中同频率谱线随时间的相关性特征随说话人的不同区别较大;(7) 相对发音速率特征:对于同一语音,对于不同说话人,发音过程中某些部分的相对发音速率间的差异很大;(8) 音调轮廓特征:不同说话人的平均音调特征往往差别不

47、大,但是音调轮廓,即在一个句子的时段内音调随时间变化的曲线形状的变化却非常明显,应用这一特征的优点是它在传输及记录的过程中不产生失真。目前,语音识别中常用到的特征向量可以分为如下三种14:(1) 基于LPC的倒谱系数;(2) 基于FFT的频谱余弦变换分析;(3) 基于前沿数字信号处理技术的特征分析手段,如小波分析、时域一频域分析、人工神经网络等。第一类有基于德宾(Durbin)算法的LPC倒谱系数,即LPCC。第二类有基于刻度的MFCC系数,这两类系数在各种文献中使用的最多。其中LPCC是基于发音模型建立的,从线性预测的角度来模拟人的声道特性,是一种基于合成的参数,但此参数没有充分利用人耳的听

48、觉特性。人们通过对人类听觉机理的研究发现,人耳对声音频率高低的主观感觉并非成正比关系,是非线性的。不同频率声音形成的行波,在沿着耳蜗基底膜传播的过程中,峰值出现在耳蜗荃底膜的不同位置上,该位置和声音频率呈对数关系。频率倒谱参数的分析就是着眼于人耳的听觉机理,依据听觉实验的结果来分析语音的频率。与基于线性预测的倒谱分析相比,其突出优点是不依赖全极点语音产生模型的假定,而且在噪声环境下表现出更强的顽健性,在非特定人连续语音识别方面有利于减少因人不同的差异可能带来的影响。大量的研究表明,从识别效果及抗噪声性能上来看MFCC要优于LPCC。针对以上的介绍,本文在汉语连续数码串语音识别系统中采用的特征向

49、量为MFCC特征参数,本章将重点介绍MFCC特征参数的有关理论及其提取过程。3.1 MFCC特征参数的提取3.1.1 美尔频率倒谱系数Mel 频率倒谱系数(Mel Frequency Cepstrum Coeficient,MFCC)是将信号的频谱,首先在频域中将频率轴变换为Mel 频率刻度,再变换到倒谱域得到的倒谱系数15,16。Mel,是音高的单位,音高是一种主观心理量,是人类听觉系统对声音频率的感觉。为了描述人耳对声音频率高低的主观感觉这一非线性关系,采用了Mel (美尔)标度。一个高于听阈40dB,频率为1KHz的纯音的音高定义为1000 Mel,那么16000Hz的声音音高为3400

50、 Mel 16。式(2.12)给出了美尔标度与实际频率的关系式: (3.1)在实际运算当中,为方便起见,可将上式变为21: (3.2)MFCC就是利用了人耳这一特性,通过模拟听觉的非线性特点,以达到提高系统识别率和稳健性的目的。MFCC具体计算方法如下17:(1) 以一定窗长(本文取20ms)和窗移取为10ms)把语音分成一个个相互重叠的帧,将以下步骤用于每一帧信号:(2) 每一帧信号用滤波器作高频预加重;(3) 用汉明窗(hamming windows)函数对每个帧进行加窗处理,减少吉布斯(jibbs)效应: (3.3)(4) 对加窗后的语音信号进行512点离散傅立叶变换(DFT),即: (

51、3.4)其中,K为512点。然后再求信号能量谱,即: (3.5)(5) 根据式(3.5)进行频率弯折,即取模平方,在弯折后的频率轴上取得等间隔滤波器组,并用此组三角滤波器在频域对功率谱进行滤波。如图3.1所示,这组带通滤波器的中心频率是按Mel 刻度均匀排列的,每个滤波器三角形的两个底点的频率分别等于相邻两个滤波器的中心频率,即每两个相邻滤波器的过渡带相互搭接,且频率响应之和为1。通常,这组带通滤波器的频率范围应从0到Nyquist采样定理指定的频率,但是,对频带的限制有助于去掉不要的频率或阻止无用的能量谱通过滤波器组,因此,一般将频率范围设定为300, 3400左右17。滤波器个数Q的选择,

52、可以采用如下方法:(1)在频率范围内均匀的安排20-26个滤波器。(2)当1KHz时,使()=1.1();为滤波器的中心频率。图3.1 Mel刻度滤波器组示意(6) 计算通过各个频带的能量并取就得到 (3.6)式中,Q为滤波器的个数,为第个滤波器的加权函数。(7) 对进行离散余弦变换(DCT)就得到了MFCC系数。 (3.7)这里i为倒谱系数的阶数,一般可取12-16个;j=1Q,为滤波器的个数。在本文中i=12, Q=24.MFCC参数也是按帧计算的。Mel倒谱系数的提取框图如图3.2所示。其中Mel滤波的作用是利用同人耳听觉特性相似的三角滤波器组对语音信号的幅度平方谱进行平滑。对数操作()

53、的用途主要有两点,一是压缩语音谱的动态范围,二是将频域中的乘性成份变成对数谱域中的加性成份,以便滤除乘性噪声。离散余弦变换(DCT)主要用来对不同频段的频谱成份进行解相关处理,使得各维向量之间相互独立18。综上,可得到MFCC倒谱系数提取过程的框图,如图3.2所示。图3.2 MFCC的提取过程3.1.2 特征矢量的构成上面介绍了MFCC的提取过程,现在来说明如何构成特征矢量以获得较高的识别率。国内外大量实验结果表明,对个倒谱系数采用如下的窗函数加权,可以明显改进系统的识别效果16: (3.8)设Wn(m)是第n帧加权窗函数,则第n帧加权倒谱系数可表示为: (3.9)其中的典型值对于4KHz带宽

54、来说是10-16,在本文中取12。倒谱特征主要反映了语音的静态特征,语音信号的动态特征可以用静态特征的一阶差分谱和二阶差分谱来描述。如果将这些动态信息和静态信息相互补充,能大幅提高系统的识别性能16。个加权倒谱系数后再增加个差分倒谱分量如下: , (3.10)是求差分的范围,是一个使和的方差保持一致的加权系数。实验表明,取以及是适宜的18。对于较简单的识别系统,只需取每帧语音的加权倒谱系数和差分倒谱系数来构成特征矢量18,而对于本文所研究的复杂系统,则应在特征矢量中纳入归一化能量和归一化差分能量。同时,在本文中所使用的二阶差分倒谱系数,将大大增加系统的存储量和计算量。3.2 倒谱提升窗口在为每

55、帧数据计算出K阶MFCC参数后,通常还要为这K个系数分别乘以不同的权系数,实际上是一个短的窗口: (3.11)倒谱提升能够改善低信噪比时的特征性能,中间阶数和高阶MFCC分量较低阶MFCC分量稳定,增加其在识别中的权重有助于提高特征的抗噪性能。3.3 美尔差分倒谱参数标准的MFCC参数只反映了语音参数的静态特性,而人耳对语音的动态特征更为敏感,反映语音动态变化的参数就是差分倒谱。差分参数的计算采样下面的公式19,20: (3.12)这里的和都表示一帧语音参数,为常数,通常取2,这时差分参数就称为当前帧的前两帧和后两帧参数的线性组合。由此式计算得到的差分参数为一阶差分参数,用同样公式对一阶差分参

56、数进行计算,可得到二阶差分参数。实际使用中,将MFCC和各阶差分差数合并为一个矢量,作为一帧语音信号的参数。4 语音识别算法目前,应用于语音识别的方法主要有矢量量化模型、隐马尔可夫模型、高斯混合模型和神经网络模型。矢量量化、隐马尔可夫和高斯混合模型都是基于模板匹配的。矢量量化方法在限定说话者使用较小词汇(如数字)时,效果相当好。隐马尔可夫方法能较好地为声学特征建模,并有一定的处理噪声和信道变异的能力,在各种形式的语音识别中都取得了较好的效果。因此,本系统主要选用矢量量化方法进行非特定人连续语音识别的研究。下面就本文用到的非特定人连续语音识别的识别算法进行简要介绍。4.1 矢量量化模型矢量量化V

57、Q (Vector Quantization),是一种极其重要的信号压缩方法,广泛应用于图象信号压缩、语音信号压缩等领域,在语音识别的研究中起着非常重要的作用。最简单的信号量化方法是标量量化,就是用若干个离散的数字值来表示每一个幅度具有连续取值(模拟值)的离散时域信号(采样信号),可见标量量化也压缩了信息量,有利于节省系统的存储量和运算量,从而提高系统的运算速度。矢量量化是将矢量分组,然后用每组的标号(数字值)来表示各种矢量。矢量量化的原理是:在矢量空间中每一个点代表一个矢量,用一些有代表性的点(矢量)来代替它周围的点(矢量),这些点称为聚类中心。矢量量化实质是一种聚类技术。这些聚类中心被称为

58、码字,一个矢量量化器的所有码字的集合称为该矢量量化器的码本。码本的容量指的是该码本中码字的个数。一般码本的容量用比特来表示。码本的容量为: 。矢量量化用于语音识别,是将说话人的语音作为一个信源,利用矢量量化技术对其建模(由训练序列聚类生成VQ码本),使VQ码本与说话人一一对应,识别时,用所有的码本对输入测试序列进行编码,并计算各自的总平均量化失真,然后进行比较,以最小失真的参考模式作为判决对象,从而实现对语音的识别。矢量量化在语音识别中的原理是:在语音特征参数空间中用聚类中心的标号来代替它周围的语音特征矢量。矢量量化在语音识别中的工作过程的框图如下:图4.1 矢量量化工作框图由矢量量化的工作过程框图可见,矢量量化可以减少系统的运算量和存储量,提高系统的实时处理能力。但任何事情都有两方面,矢量量化会引起信息的损失,即带来矢量畸变。所以在要求较高的语音识别系统中不适合采用矢量量化。VQ编码器的运行过程是:每输入一个语音特征矢量,就计算矢量与码本中每一个码字的之间的距离,以具有最小距离的码字的标号作为VQ编码器的输出。如果用表示X和Y之间的畸变,那么VQ的任务就是使得此畸变的统计平均值D最小。 , 表示对X的全体所构成的集合取统计平均。为了实现这一目的,VQ编码器必须遵循

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!