语音识别科普性介绍

上传人:积*** 文档编号:202104640 上传时间:2023-04-21 格式:DOCX 页数:18 大小:672.25KB
收藏 版权申诉 举报 下载
语音识别科普性介绍_第1页
第1页 / 共18页
语音识别科普性介绍_第2页
第2页 / 共18页
语音识别科普性介绍_第3页
第3页 / 共18页
资源描述:

《语音识别科普性介绍》由会员分享,可在线阅读,更多相关《语音识别科普性介绍(18页珍藏版)》请在装配图网上搜索。

1、随机过程理论在语音辨认中的应用第一章 语音辨认总述1.1语音辨认技术简介语音辨认技术就是让机器通过辨认和理解过程,把语音信号转变为相应的文本或命令的技术。在当下流行的即时通讯软件(如:微信、Q等)里,语音辨认技术得到了非常广泛的应用。当对方发来一段语音信息而自己不以便收听时便可以使用语音转化功能将语音信息转化成文字信息。此外,在许多输入法(如:讯飞输入法)中也可以使用语音输入功能。顾客只需要对着麦克风说话,输入法便可以将语音转换为文字填入输入框,在以便顾客的同步也提高了文字输入效率。语音辨认波及的领域涉及:数字信号解决、声学、语音学、计算机科学、心理学、人工智能等,是一门涵盖多种学科领域的交叉

2、科学技术。语音辨认的技术原理是模式辨认,其一般过程可以总结为:预解决、特性提取、基于语音模型库下的模式匹配、基于语言模型库下的语言解决、完毕辨认。图1.0.1 语音辨认过程第二章 预解决声音的实质是波。在现如中得到广泛应用的音频文献格式(如:p3等)都通过了压缩无法直接辨认。语音辨认所使用的音频文献格式必须是未经压缩解决的wa格式文献。下图是一种波形示例。图20.2 语音波形示例有了声波源文献输入便可以按照图.1.所示的各个环节进行辨认。2.1静音切除如图2.所示,在得到的声波信号输入中需要实际解决的信号并不一定占满整个时域,会有静音和噪声的存在。因此,必须先对得到的输入信号进行一定的预解决,

3、消去静音的部分并且滤除噪声的干扰才干对实际需要解决的有效语音进行辨认。噪声解决部分本文已在上文进行过讨论,这里不再赘述。清除静音需要用到AD算法,本文对其做简朴简介。2.11 VAD算法VA算法全称为Voe ctivtyDetction,又称语音边界检测。其可实现的功能有对语音信号进行打断、清除语音信号中的静音部分从而获取有效语音,还可以清除一部分噪声对后续语音辨认过程导致的干扰。VAD重要是对输入语音信号的某些时域或频域特性判断其与否属于静音部分。本文只对这些参数做简要简介,具体算法不属于本文重点因而不在此做细致讨论。2.2时域参数时域参数是通过对输入信号在时域上的特性参量进行辨别。在信噪比

4、较高的环境下使用时域参数进行辨别效果明显。1.有关性分析 通过对足够短的时间范畴内的语音信号进行有关性检测可以初步鉴定该时间范畴内的信号与否属于静音部分。在实际应用中,静音的部分事实上会混有多种各样的噪声,因此并非绝对意义上静音。噪声在各个时间范畴内的有关性比较低,而人说话的语音有关性则比较强。因此,在高信噪比的条件下辨别成功率很高。然而,由于噪声多种多样,因此有关性分析只合用于辨别小部分噪声与语音,这是其局限性所在。2. 时域能量静音部分的噪声能量相较于有效语音能量而言要少得多,因此可以通过比较短时间范畴内的输入信号能量来鉴定该段信号与否输入静音部分。而在实际生活中,会浮现高能量噪声的状况,

5、此时再用时域能量参数就显得爱莫能助。.32.12频域参数频域参数的抗噪性能要优于时域参数,但是由于需要用到傅立叶变换等变换措施进行分析域转换,因此相应的计算复杂度较高,耗费时间也较长。1. 谱熵熵本是源于热力学的参数,用于描述系统的混乱度。在信息论中用于描述信息源的不拟定性。 图.1 噪声谱 图212 语音谱在实际应用中,噪声谱较为平坦,谱熵较大。而语音能量集中在低频段,谱熵较小,因此可通过谱熵来判断信号属于噪声还是有效语音。谱熵的可靠性不会受信号大小的影响,其大小只与信噪比有关。2. 自适应子带虽然在很低的信噪比下,语音帧仍然具有较高信噪比的子带,而噪声帧却没有。因此可以根据每帧信号的最小频

6、带所占的该帧总能量的概率来自适应选择子带的多少。2.分帧.1分帧简介如图2.0.2的有效语音信号波形在时域上是无法对其进行辨认的的。因此必须算出有效语音信号在频域上的分布状况,因而需要对有效语音信号做傅立叶变换从而得到其在频域上的分布状况。图2.2.1 有效语音信号波形图傅立叶变换的前提是输入信号是平稳的,而如图2.所示的有效语音信号的前三分之一和后三分之二明显不同样,这是由于发音者的发音姿态变换而导致的,因此整体来看语音信号不平稳。但如果取适量小的时间范畴内(如图中矩形框圈出的时间范畴),仅在该时间范畴内做分析的话,发声者的发声姿态基本不变,语音信号就可以当作平稳的,就可以截取出来做傅立叶变

7、换了。将有效语音信号的截取成一帧一帧的平稳信号的过程就称为分帧。22.1分帧时长由上述的讨论可知,通过度帧操作所得到的每一帧信号需满足如下两个条件:1. 它必须足够短来保证帧内信号是平稳的。上文提到过,发音者发音姿态的变化是导致信号不平稳的因素,因此在一帧的期间内发音姿态不能有明显变化。即一帧的长度应当不不小于一种音素的长度。正常语速下,音素的持续时间大概是50至20m,因此帧长一般取为不不小于 0 ms。2.每一帧信号又必须涉及足够多的振动周期,由于傅立叶变换是对信号的频域进行分析,只有每一种频率成分在时域反复振动足够多次才干分析频率。语音的基频,男声在10 z左右,女声在200 z左右,换

8、算成周期就是 10 ms和 ms。既然一帧要涉及多种周期,因此一般取至少 20ms。通过以上的讨论,帧长一般取为 20 至0 ms,20、25、30、40、50 都是比较常用的数值。2.3加窗为了提高傅立叶变换所得频谱的辨别率,取出来的一帧信号,在做傅立叶变换之前,要先进行加窗的操作,即与一种窗函数相乘,如图.3.1所示。 图2.3.1() 原信号 图2.3.1(b) 汉明窗函数图2.1(c) 加窗解决成果加窗的目的是让一帧信号的幅度在两端渐变到 从而提高傅立叶变换成果频谱的辨别率。由加窗解决过程可以看出,信号两端的部分被逐渐削弱至0,因此在该帧信号中无法计入频谱。在实际解决时,往往通过不同帧

9、之间进行重叠来弥补加窗解决带来的损失。图23.2 重叠分帧如图2.1所示,每一帧信号时长为2m,以1ms作为帧移取下一段信号。由此第一帧信号后15ms的波形便会在下一帧信号前15ms中浮现。2.傅立叶变换对一帧信号做傅立叶变换,得到信号频谱如下:图2.4.1信号频谱图如图2.1,从信号频谱图中可知该帧语音信号呈现出的精细构造和包络两种模式。平滑连接每一种精细构造的小峰便得到包络。又由包络可以得到共振峰,图中能看出四个,分别在 500、170、250、3800 附近。它代表了发音者的口型,对此特性进行提取便可只发音者发出的是哪个音。第三章声学特性提取人通过声道产生声音,声道的形状决定了发出如何的

10、声音。声道的形状涉及舌头,牙齿等。如果我们可以精确的懂得这个形状,那么我们就可以对产生的音素进行精确的描述。声道的形状在语音短时可以由功率谱的包络中显示出来。因此,精确描述这一包络的特性就是声学特性辨认环节的重要功能。接受端接受到的语音信号通过上文的预解决后来便得到有效的语音信号,对每一帧波形进行声学特性提取便可以得到一种多维向量。这个向量便涉及了一帧波形的内容信息,为后续的进一步辨认做准备。本文重要简介使用最多的MFCC声学特性。3.1MCC简介MFCC(MeFquncy CestrumCeffie)特性是基于人耳对声音的敏感特性而提出的。人耳听声音时,耳蜗相称于一组滤波器。当声音频率在1K

11、H如下时,人耳的感知能力与频率成线性关系,但在1KH以上时,人耳的感知能力与声音频率更接近对数关系。这也就解释了为什么人耳对于低频声音的感知比高频声音更敏感。MFCC是Mel频率倒谱系数的缩写。Me频率是基于人耳听觉特性提出来的,其计算公式为:它与H频率成非线性相应关系。Mel频率倒谱系数(MFCC)则是运用它们之间的这种关系,计算得到的Hz频谱特性。由于l频率与z频率之间非线性的相应关系,使得FC随着频率的提高,其计算精度随之下降。因此,在应用中常常只使用低频FCC,而丢弃中高频FCC。3FC的一般过程MFCC特性提取的一般过程如下:图321 MFC特性提取的一般过程图中的分帧加窗以及F已经

12、在预解决部分中提到,这里不再赘述。.2.1 Mel滤波器组假设原信号通过预加重、分帧加窗后的DFT为式中x(n)为输入的语音信号,表达傅立叶变换的点数。式中x(n)为输入的语音信号,表达傅立叶变换的点数。将能量谱通过一组Ml尺度的三角形滤波器组,定义一种有M个滤波器的滤波器组(滤波器的个数和临界带的个数相近),采用的滤波器为三角滤波器,中心频率为。M一般取2226。各之间的间隔随着m值的减小而缩小,随着m值的增大而增宽,如图所示:图32.2 Ml频率滤波器组三角滤波器的频率响应定义为:式中:此处使用三角带通滤波器有两个目的:第一、使得到的频谱变得平滑,并且可以清除谐波的干扰从而凸显出原语音信号

13、的共振峰。因此,一段语音的音调并不会由M特性表达出来。换句话说,语音信号的音调不会对CC的参数产生影响。第二、可以有效减少运算量。计算每个滤波器组输出的对数能量为:经离散余弦变换(DC)得到C系数:将上述的对数能量带入离散余弦变换,求出L阶的l-sl Cpsrum参数。L阶指FC系数阶数,一般取2-16。这里是三角滤波器个数。32.2对数能量语音信号的能量体现为音量的大小,每一帧信号的能量也是语音信号的一种重要特性,而这个参数非常容易计算得到,因此,一般在已经得到的参数基本上再加上一帧的对数能量。对数能量的定义为:如此就使得每一帧语音信号特性向量又多了一种维度。在此阶段也可加入其他语音特性。例

14、如:音高、过零率以及共振峰等。3.23动态差分参数的提取(涉及一阶差分和二阶差分)原则的倒谱参数MFCC只反映了语音参数的静态特性,语音的动态特性可以用这些静态特性的差分谱来描述。实验证明:把动、静态特性结合起来才干有效提高系统的辨认性能。差分参数的计算可以采用下面的公式:式中,表达第t个一阶差分;表达第个倒谱系数;Q表达倒谱系数的阶数;表达一阶导数的时间差,可取或2。将上式中成果再代入就可以得到二阶差分的参数。3.4特性提取成果综上所述,FCC的所有构成其实是:维FCC参数(N/MFCC系数+N/3一阶差分参数 N/二阶差分参数)帧能量(此项可根据需求替代)声音信号通过MFCC特性提取后便可

15、得到描述其内容信息特性的向量。为以便后续阐明,我们假设通过特性提取后每一帧的信号都变换为一种2维的向量,并用色块颜色的深浅来表达向量值的大小。图3.2. 原波形图.2.4 信号声学特性图第四章 模式匹配模式匹配也即是解码过程。它是对上文得到的通过解决的声音信号与已有的语音模型库进行匹配以达到辨认的目的。通过特性辨认,我们已经得到了描述声音内容信息特性的向量。接下来的解码过程就是在给定语音模型的状况下,找到最也许相应的发音的过程。图4.01 语音辨认全过程本文重要简介隐马尔科夫模型在模式匹配环节中的作用。4.马尔科夫模型与隐马尔科夫模型按照维基百科的说法,到目前为止语音辨认的技术都没有脱离隐马尔

16、可夫模型框架。可见隐马尔科夫模型在语音辨认中的重要性。为了透彻论述隐马尔科夫模型,有必要同步简朴简介一下马尔科夫模型与隐马尔科夫模型。.1.1 马尔科夫模型马尔科夫模型通过研究事物发生以及互相转化的概率从而对将来事物的状态进行预测。在马尔科夫模型中,事物目前的状态只与上一种状态而与其他任何时候的状态均无关。用马尔科夫的一句富含哲理的话说:“过去发生的所有信息都汇集在今天,而明天如何,只取决于今天,与历史再无关联。”为加深理解,以预测天气为例。假设每每天气只有三种状态:晴天、雨天、多云。若第一天为晴天,则第二天也为晴天的概率为.5,为多云的概率为.75,为雨天的概率为012。同样也定义若第一天为

17、雨天或多云,第二天为其他状态的天气之间的转移概率。图.1.1 不同天气之间的转移概率假设第一种观测天(即昨天)为晴天,并由此预测今天的天气状况。到此,我们建立了一种一阶马尔科夫模型。它涉及三个状态(即:晴天、多云、雨天)、各个状态之间的转换概率(如图4.1.1所示)以及初始概率(即:昨天的天气)晴天。既然已知昨天为晴天,则初始晴天概率、初始多云概率、。则据此预测今天的天气:由此可知,今天为晴天的概率最大。既然已知今天的天气概率状况,又可以据此预测明天的天气状况: 以此类推,后天的天气状况只与明天有关而与昨天,今天都无关。4.1.隐马尔科夫(HMM)模型在隐马尔科夫模型中,必备的三个要素分别初始

18、概率、转移概率、输出概率。其中,初始概率与转移概率的含义与马尔科夫模型中相似,输出概率是指状态值映射到相应观测值的概率。例如:若目前的天气状况不能直接获得,只能通过测量空气湿度间接获得。同样举预测天气的例子,定义如下输出概率。图4.1.2 不同天气之间相应空气湿度的输出概率若观测到持续三天,空气的潮湿限度分别为干燥,干燥,潮湿,则这三天最有也许是哪种天气状况。这里的隐马尔科夫链:P(干燥、干燥、潮湿|HMM)=P(干燥、干燥、潮湿晴天、晴天、晴天)(干燥、干燥、潮湿晴天、晴天、多云)+P(干燥、干燥、潮湿|晴天、晴天、雨天)+P(干燥、干燥、潮湿|晴天、多云、晴天)+P(干燥、干燥、潮湿|雨天

19、、雨天、雨天)。采用穷举的措施可以找到概率最大的天气排序状况。这种由观测值推知状态值的措施就是隐马尔科夫模型。它可以用来描述具有隐含位置参数的马尔科夫过程。.语音模型库以中文为例进行后续阐明。中文的发音由声母、韵母和整体认读音节组合而成。因而将每一种声母,韵母,整体认读音节称作“音素”。每一种音素均有一定的发音规律,可以将这个发音实现通过特性提取后编算成计算机可存储的声学特性作为已知的语音模型库以以便后续的模式匹配。除了音素的存储之外,语音模型库还存储了大量单字,单词,成语等语句元素所相应的语音输出概率。(例如:当接受到语音信号“su ”时,这个信号辨认为“随后”二字的概率为0.3,辨认为“随

20、机”二字的概率为05)此类似于隐马尔科夫模型中状态值映射到观测值的输出概率。4.3隐马尔科夫模型在模式匹配中的应用在完毕特性提取后,就可以对未知语音帧序列进行辨认了。完毕模式匹配辨认有两个环节:(1)使用隐马尔科夫模型,构建一种状态量足够多的状态网络。状态网络的搭建是由单词级别的网络展开成音素网络,再展开成状态网络。例如下图。图4. 状态途径图中,以中文单词“随机”为例,将其拆分为音素“s”、“ui”、“j”、“”,并由此生成相应的状态途径“S1-S2-3-4S-6-S7-S8-9-0- S11-S12”。()从状态网络中寻找与声音最匹配的途径,即在所有也许的途径中选择一条概率最大的途径作为辨

21、认成果。这个规定可由相应的搜索算法(如:Viterbi算法)满足。本文着重论述波及隐马尔科夫模型的第一种环节。由于说话语速的不同,每一种音素的持续帧数也不相似,因此也许会浮现一帧或者几帧属于一种音素的状况,因此将音素又继续细分为更小的单位:状态。在隐马尔科夫模型,状态是隐变量,语音是观测值。通过预解决、特性提取,我们将语音信号进行了分帧,并且也得到了用于描述每一帧语音信号声学特性的多维向量,这个过程的最后成果相应在隐马尔科夫模型中获得了观测值。此后,将之前分割的每一帧语音片段的声学特性与语音模型库中已知音素的状态的声学特性进行对比。得到目前观测值相应隐变量的输出概率。图3. 获得输出概率 图中

22、,每个小竖条代表一帧。通过条件概论公式计算,发现图中箭头所指向的帧在状态S上的概论最大,则将该帧辨认为状态S3。以此类推辨认每一帧信号的状态。图.3.3 状态构成音素通过计算概率最大的隐马尔科夫链便可以鉴定目前一帧或几帧最大概率属于哪一种状态,再由得到的状态凑成一种音素。若干帧语音辨认为一种状态(如图中的S1029状态、S124状态),每三个状态组合成一种音素(如:图中的ay音素),若干个音素组合成一种单词。由此看出只要懂得每帧语音所相应的状态即可得到语音辨认的成果。第五章 语言解决语言解决部分没有过多波及随机过程的有关内容,本文只进行简朴简介。在实际应用中一般是在给定了根据语法、字典对马尔科夫模型进行连接后的搜索的网络(网络的每个节点可以是一种词组等)后,在所有也许的搜索途径中选择一条或多条最优(一般是最大后验概率)途径(字典中浮现词组的词组串)作为辨认成果。在一定的语法规则下,可以极大的减少隐马尔科夫模型的计算,提高精确度的同步减少时间,可谓是一举两得。【参照文献】1吴启晖,王金龙.基于谱熵的语音检测J.电子与信息学报,,(10):989-9.2李金宝,屈百达,刘立星,周小祥 中国自动化学会第1届青年学术年会3CC简介 知乎作者:王赟 5语音特性参数MCC提取过程详解 6CDN博客 GMM-HM语音辨认模型 原理篇

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!