语音识别方法

上传人:m**** 文档编号:215078406 上传时间:2023-06-01 格式:DOCX 页数:5 大小:237.08KB
收藏 版权申诉 举报 下载
语音识别方法_第1页
第1页 / 共5页
语音识别方法_第2页
第2页 / 共5页
语音识别方法_第3页
第3页 / 共5页
资源描述:

《语音识别方法》由会员分享,可在线阅读,更多相关《语音识别方法(5页珍藏版)》请在装配图网上搜索。

1、语音识别方法语音特征提取将语音信号转换为特征向量,通过这些向量来进行语音相关任务的训练与识别语音识别对特征参数有如下要求:1. 能将语音信号转换为计算机能够处理的语音特征向量;2. 能够符合或类似人耳的听觉感知特性;3. 在一定程度上能够增强语音信号、抑制非语音信号;常用特征提取方法有如下几种: LPC声谱图 倒谱分析 MFCC (最常用)将一段连续的语音信号通过分帧、FFT、灰度映射转换为离散、低维的特征向量,框架图 如下:声谱图表示法流程基本流程如下:(1 )将一段语音做分帧处理,即将其剪切为一段段语音片段(2050ms之间);(2 )将每一帧的语音信号通过短时傅里叶变换(FFT )转为频

2、域信号,得到每一帧的频 谱图,如下图所示,横轴为频率、纵轴为当前频率对饮的能量值。在实际使用中,频谱图有 三种,即线性振幅谱、对数振幅谱、自功率谱(对数振幅谱中各谱线的振幅都作了对数计算, 所以其纵坐标的单位是dB(分贝)。这个变换的目的是使那些振幅较低的成分相对高振幅成 分得以拉高,以便观察掩盖在低幅噪声中的周期信号);60频谱(spectrum)卩傅里叶变换,a I-1K*-i11-1 1-. -=- |Z=*0SO000七002000250030GO35004 000Frequency / Hz语音频谱图3)将每一帧的频谱值映射为灰度图,灰度的深浅就代表了该频率段能量的大小,很黑的地方就

3、是频谱图中的峰值(共振峰formants )。倒谱分析倒谱就是一种信号的傅里叶变换经对数运算后再进行傅里叶反变换得到的谱。倒谱分析 的目标是:从语音频谱中得到它的频谱包络(连接所有共振峰值点的平滑曲线),它在语音 识别中被广泛用于描述特征。主要流程如下:1. 将原语音信号经过傅里叶变换得到频谱:Xk二HkEk,只考虑幅度就是:|Xk|=|Hk|Ek |;2. 我们在两边取对数:log|Xk |二 log |Hk |+ log |Ek | ;3. 再在两边取逆傅里叶变换得到:刈k = hk+eko下面是一个语音的频谱图。峰值就表示语音的主要频率成分,把这些峰值称为共振峰(formants ),而

4、共振峰就是携带了声音的辨识属性,用它就可以识别不同的声音。因此,需要把它提取出来。提取的不仅是共振峰的位置,还得提取它们转变的过程。所以我们提取20dB4-61000200030004000500060007Q008000的是频谱的包络(SpectralEnvelope )。这包络就是一条连接这些共振峰点的平滑曲线。Frequency (Hz)语音频谱图由上图可以看出,原始的频谱由两部分组成:包络和频谱的细节。因此需要把这两部分 分离开,就可以得到包络了。按照下图的方式进行分解,在给定logXk的基础上,求得m4log Hk sPectra, EnvelopeQ 1000 W4000 SOW

5、fiODO 7000旷Fog EklogHk和 logEk满足 logXk = logHk+logEko倒谱分析流程图xk = hk + eklog Xk = log Hk + log Ek spectrumA pseudo-frequency axis10003 4000 56 60N 7000 WOOSpectral details乜匕:由上面这个图我们可以看到,包络主要是低频成分,而高频主要是频谱的细节。把它俩 叠加起来就是原来的频谱信号了。即,hk是xk的低频部分,因此将xk通过一个低通滤 波器就可以得到hk了,这就是我们要提取的频谱包络。MFCC人通过声道产生声音,声道的形状决定了发

6、出怎样的声音。声道的形状包括舌头,牙齿 等。如果我们可以准确的知道这个形状,那么我们就可以对产生的音素进行准确的描述。声 道的形状在语音短时功率谱的包络中显示出来,而MFCC就是一种准确描述这个包络的一种 特征。MFCC的目标是:从语音频谱中得到它的梅尔(Mel)频谱的倒谱,先将线性频谱映射到基 于听觉感知的Mel非线性频谱中,然后转换到倒谱上。主要流程如下:4. 先对语音进行预加重、分帧和加窗;5. 对每一个短时分析窗,通过FFT得到对应的频谱,然后通过Mel滤波器组得到Mel 频谱,log Xk = log (Mel-Spectrum);Mel(f) = 2595 * log10(1 + f/ 700);6. 在Mel频谱上面进行倒谱分析1 )取对数:log Xk = log Hk + log Ek,2 )进行逆变换:xk = hk + ek。实际逆变换一般是通过DCT离散余弦变换来实现,取DCT后的第2个到第13个系数作 为MFCC系数),获得Mel频率倒谱系数MFCC,这个MFCC就是这帧语音的特征;

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!