语音识别打印

上传人:小鹤 文档编号:173006651 上传时间:2022-12-08 格式:DOCX 页数:4 大小:133.42KB
收藏 版权申诉 举报 下载
语音识别打印_第1页
第1页 / 共4页
语音识别打印_第2页
第2页 / 共4页
语音识别打印_第3页
第3页 / 共4页
资源描述:

《语音识别打印》由会员分享,可在线阅读,更多相关《语音识别打印(4页珍藏版)》请在装配图网上搜索。

1、名词解释:语音识别是研究如何采用数字信号处理技术自动提取以及决定语音信号中最基本、最有意义的信息的一门新兴的边缘学 科。预处理主要是对一段语音信号进行预加重、分帧加窗的处理。 特征提取是对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。 预加重:提升高频部分,使信号的频谱变得平坦,以便于进行频谱分析或声道参数分析。 端点检测是指从包含语音的一段信号中确定出语音的开始和终止点。矢量量化是将若干个取样信号分成一组,即构成一个矢量,然后对此矢量一次进行量化。将某一范围内的矢量归为某一 类,即所谓的矢量量化 失真度的定义:将输入信号矢量用码书的重构矢量来表征时的误差

2、或所付出的代价的大小。语音合成就是让计算机象人那样讲话。共振峰在图1所示的某一语音的频率响应图中,标有Fpl, Fp2, Fp3,处为频率响应的极点,此时,声道的传输频率响应有极大值。习惯上,把声道传输频率响应上的极点称之为共振峰语音识别的定义语音识别是研究如何采用数字信号处理技术自动提取以及决定语音信号中最基本、最有意义的信息的一门新兴的边缘学 科。语音识别的基本原理训练(Training):预先分析出语音特征参数,制作语音模板(Template)并存放在语音参数库中。识别(Recognition):待识语音经过与训练时相同的分析,得到语音参数,将它与库中的参考模板一一比较,并采用判决的 方

3、法找出最接近语音特征的模板,得出识别结果。失真测度(Distortion Measures):在进行比较时要有个标准,这就是计量语音特征参数矢量之间的“失真测度”。主要识别框架:基于模式匹配的动态时间规整法(DTW:Dynamic Time Warping)和基于统计模型的隐马尔柯夫模型法 (HMM:Hidden Markov Model)。 (图 1.2)语音识别原理框图一个典型语音识别系统的实现过程如图所示。预处理主要是对一段语音信号进行预加重、分帧加窗的处理。预加重的目的是提升高频部分,似信号变得平坦,保持在低频到高频的整个频带中 ,能用同样的信噪比求频谱,以便于频谱分 析或声道参数分析

4、.分帧一般采用交叠分段的方法,这是为了使帧与帧之间平滑过渡,保持其连续性。分帧是用可移动的有限长度窗口进行加 权的方法来实现的。特征提取是对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。特征提取一般要 解决两个问题,一个是从语音信号中提取(或测量)有代表性的合适的特征参数(即选取有用的信号表示)另一个是进行适当 的数据压缩。语音识别的分类 按识别器的类型:孤立单词识别(Isolated Word Recognition)识别的单元为字、词或短语,它们组成识别的词汇表(Vocabulary), 对它们中的每一个通过训练建立标准模板或模型。连续语 音识别(Co

5、ntinuous Speech Recognition)连续单词识别(Connected Word Recognition):以比较少的词汇为对象,能够识别每个词。识别的词汇表和标准样板或模型也是字、词或短语,但识别时可以是它们中 间几个的连续。连续言语识别与理解(Conversational Speech Recognition):以多数词汇为对象,待识语音是一些完整的句子。虽不能完全准确识别每个单词,但能够理解其意义,连续言语识别也 称会话语音识别。理解是在语音识别之后,根据语言学知识来推断语音的含义内容的。按识别器对使用者的适应情况:特定人语音识别(Speaker-Dependent)语

6、音识别的标准模板或模型只适应于某个人,实际上,该模板或模型就是该人通过输入词汇表中的每个字、词或短语的 语音建立起来的。其他人使用时,需同样建立自己的标准模板或模型。非特定人语音识别(Speaker-Independent)语音识别的标准模板或模型适应于指定的某一范畴的说话人(如说标准普通话),标准模板或模型由该范畴的多个人通 过训练而产生。 识别时可供参加训练的发音人(圈内人)使用,也可供未参加训练的同一范畴的发音人(圈外人)使用 按语音词汇表的大小: 有限词汇识别按词汇表中字、词或短句个数的多少,大致分为:100 以下为小词汇;100-1000 为中词汇;1000 以上为大词汇。 无限词汇

7、识别(全音节识别)当识别基元为汉语普通话中对应所有汉字的可读音节时,则称其为全音节语音识别(音节字表:Lexicon)。全音节语音识别是实现无限词汇或中文文本输入的基础。 掩蔽效应:一种声音的听觉感受受到同时听到的另一种声音的影响。分:同时掩蔽和短时掩蔽 同时掩蔽:同时存在的一个弱信号和一个强信号频率接近时,强信号会提高弱信号的听阈,当弱信号的听阈升高到一定 程度会导致弱信号不可闻。短时掩蔽:当A声和B声不同时出现时。后向掩蔽:掩蔽声B消失后,其作用仍持续一段时间:0.52s前向掩蔽:被掩蔽音A出现后,相隔0.0050.2s之内出现掩蔽音B,也会对A起作用。语音信号的数学模型 语音信号的产生模

8、型图1、激励模型(1) 发浊音时。此时气流通过绷紧的声带,冲激声带产生振动,使声门处形成准周期性的脉冲串,并用它去激励声道。声 带绷紧的程度不同,振动频率也不同。该频率就是音调频率,其倒数为音调周期。(2) 发清音时。此时声带松弛而不振动,气流通过声门直接进入声道。表示为均值为0、方差为1,并在时间或在幅度上为 白色分布的序列。2、声道模型(一) 声管模型 把声道视作截面积变化的管子,研究声音沿管道是怎样传播的。(二) 共振峰模型声道被视为谐振腔,共振峰是腔体的谐振频率3、辐 射 模 型声道的终端为口和唇。从声道输出的是速度波,而语音信号是声压波,二者之倒比称为辐射阻抗ZL。它表征口和唇的辐

9、射效应,也包括圆形的头部的绕射效应等。4、完整的模型 完整的语音信号数字模型可以用三个子模型:激励模型、声道模型和辐射模型的串联来表示。其转移函数为: H(z)=U(z)V(z)R(z)这里,U(z)是激励信号一一声门脉冲即斜三角波的形式;V(z)是声道传递函数,既可以用声管模型,也可以用共 振峰模型来描述。在共振峰模型中,又可采用级联型、并联型或混合型等几种形式;R(z)为辐射模型。 语谱图 语音处理的根本方法短时分析技术语音信号具有时变特性,而在一个短时间范围内其特性基本保持不变即相对稳定,因而可以将其看作是一个准稳态过程。 语音的重要特性是它具有“短时性”,所以对语音的分析和处理必须建立

10、在“短时”的基础上,即进行“短时分析”, 预加重:原因:语音信号的平均功率谱受声门激励和口鼻辐射的影响,高频端大约在800Hz以上按6dB/倍频程跌落。 目的:提升高频部分,使信号的频谱变得平坦,以便于进行频谱分析或声道参数分析。位置:可在反混叠滤波之前进行,这样不仅能够进行预加重,而且可以压缩信号的动态范围,有效地提高信噪比。 也可在A/D变换之后进行,用具有6dB/倍频程的提升高频特性的预加重数字滤波器实现,它一般是一阶的。 加窗分帧:语音信号是一种典型的非平稳信号,其特性是随时间而变化的,但是语音的形成过程是与发音器官的运动密切 相关的,这种物理运动比起声音振动速度来说要缓慢得多,因此语

11、音信号常常可假定为短时平稳的,即在1030ms的时 间段内,其频谱特性和物理特征参量可近似地看作是不变的,这样,就可以采用平稳过程的分析处理方法来处理了。由 这个假定导出了各种“短时”处理方法,以后讨论的各种语音信号都是分隔为一些短段(帧)再加以处理。这些短段就好像是 来自一个具有固定特性的持续语音片段一样。端点检测:端点检测是指从包含语音的一段信号中确定出语音的开始和终止点。 语音信号的倒谱分析倒谱分析:运用对数运算和二次FFT/IFFT变换,将基音谐波和声道的频谱包络分离出来,用低时窗从语音信号倒谱中截 取出低倒谱域部分,可以更精确的反映声道的响应,得到共振峰。 2、对原语音信号分析出一组

12、预测系数,得到语音产 生模型的频率响应。矢量量化的定义:矢量量化(Vector Quantization是将若干个取样信号分成一组,即构成一个矢量,然后对此矢量一次进行量化。将某一范围 内的矢量归为某一类,即所谓的矢量量化矢量量化的应用: 进入80年代以后,矢量量化技术引入语音处理领域,使之又有长足的进步。目前这项技术已经用于语音波形编码,线性 预测编码、语音识别与合成、图像压缩等。矢量量化系统的组成框图失真的定义:将输入信号矢量用码书的重构矢量来表征时的误差或所付出的代价。失真测度必须具备的特性: 必须在主观评价上有意义,即小的失真应该对应于好的主观语音质量。 必须是易于处理的,即在数学上易

13、于实现,这样可以用于实际的矢量量化器的设计。 平均失真存在并且可以计算。失真测度的方法均方误差(即欧氏距离)、加权的均方误差、ItakuraSaito (板仓-斋藤)距离,似然比失真测度等。语音合成就是让计算机象人那样讲话。语音合成可以分为下面三种类型:1. 波形合成法:它把人发音的语音波形直接存储或者进行波形编码后存储,根据需要编辑组合输出。这种系统中语音 合成器只是语音存储和重放的器件。缺点:词汇量不可能做到很大,因为所需的存储容量太大了。应用:自动报时、报 号、报站及报警等。2. 参数合成法:也称为分析合成法,是一种比较复杂的方法。为了节约存储容量,必须先对语音信号进行分析,提取出 语音

14、的参数,以压缩存储量。缺点:存在逼近误差,合成语音质量(清晰度等)也就比波形合成法要差;这种方法采用声码 器技术,以高效的编码来减少存储空间,但这是以牺牲音质为代价的,使合成语音的音质欠佳。这种语音合成又称为“终 端模拟合成”,因为它只是在谱特性的基础上来模拟声道的输出语音,而不考虑内部发音器官是如何运动的。3. 规则合成法:通过语音学规则产生语音,合成的词汇表不事先确定,系统中存储的是最小的语音单位(如音素或音节) 的声学参数,以及由音素组成音节、由音节组成词、由词组成句子以及控制音调、轻重等韵律的各种规则。给出待合成 的字母或文字后,合成系统利用规则自动地将它们转换成连续的语音声波。特点:

15、可以合成无限词汇的语句,存储量比 参数合成法更小,但音质也更难得到保证。共振峰在图1所示的某一语音的频率响应图中,标有Fpl, Fp2, Fp3,处为频率响应的极点,此时,声道的传输频率响应有极大值。习惯上,把声道传输频率响应上的极点称之为共振峰识别方法四种心汉(1)基于声道模型和语音知识的方法(2)模式匹配方法(3)统计型模型方法(4)人工神经网络方法 基于声道模型和语音知识的方法起步较早,在语音识别技术提出的开始,就有了这方面的研究,但由于其模型及语音知 识过于复杂,现阶段没有达到实用的阶段模式匹配常用的技术有动态时间规整(DTW)和矢量量化(VQ);统计型模型方法常见的是隐马尔可夫模型;

16、语音识 别常用的神经网络有反向传播(BP)网络,径向基函数网络(RBF)及新兴的小波网络。关于神经网络在语音信号处理中的应用研究十分活跃,其中以在语音识别方面的应用最令人瞩目。目前,主要是从听觉 神经模型中得到启发,以便构成一些具有类似能力的人工系统,使它们在解决语音信号处理(特别是识别)问题时能得到较 好的性能。研究神经网络以探索人的听觉神经机理,改进现有语音语音识别系统的性能,是当前语音识别研究的一个重 要方向。在模式识别的应用中,多采用Bp网和RBF网等前向神经网络来实现。RBF 网络拓扑结构在rbf网络中可以调整的参数有:隐节点激励函数,隐节点中心和半径,隐层节点个数和隐层至输出的连接权值。k均值聚类算法步骤 初始化:采用某种适当的方法选一个包含N个码字的初始码本矢量。 分类:按最近邻(Nearest Neighbor)准则,以码字为中心,将训练矢量集中的所有矢量分到各个胞腔中,形成N个区域。 产生新码本:重新计算每个区域新的中心,并以此作为该区域的新码字。计算所有训练矢量的总失真度。 结束判断:判断这一次的总失真测度比上次总失真测度下降至是否达到预先设定的某一阈值,如果达到阈值则停止 否则转步骤 2。

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!