语音识别开题报告

上传人:m**** 文档编号:65766425 上传时间:2022-03-25 格式:DOC 页数:8 大小:60KB
收藏 版权申诉 举报 下载
语音识别开题报告_第1页
第1页 / 共8页
语音识别开题报告_第2页
第2页 / 共8页
语音识别开题报告_第3页
第3页 / 共8页
资源描述:

《语音识别开题报告》由会员分享,可在线阅读,更多相关《语音识别开题报告(8页珍藏版)》请在装配图网上搜索。

1、青岛大学毕业论文(设计)开题报告题学目:孤立词语音识别的并行编程实现院:自动化工程学院电子工程系专业:通信工程姓名:李洪超指导教师:庄晓东2010年3月22日一、文献综述语音识别是解决机器“听懂”人类语言的一项技术。作为智能计算机研究的主导方向 和人机语音通信的关键技术,语音识别技术一直受到各国科学界的广泛关注。如今,随着 语音识别技术研究的突破,其对计算机发展和社会生活的重要性日益凸现出来。以语音识 别技术开发出的产品应用领域非常广泛,如声控电话交换、信息网络查询、家庭服务、宾 馆服务、医疗服务、银行服务、工业控制、语音通信系统等,几乎深入到社会的每个行业 和每个方面。广泛意义上的语音识别按

2、照任务的不同可以分为4个方向:说话人识别、关键词检出、语言辨识和语音识别1。说话人识别技术是以话音对说话人进行区别,从而进行身份鉴 别和认证的技术。关键词检出技术应用于一些具有特定要求的场合,只关注那些包含特定 词的句子。语言辨识技术是通过分析处理一个语音片断以判别其所属语言种类的技术,本 质上也是语音识别技术的一个方面。语音识别就是通常人们所说的以说话的内容作为识别 对象的技术,它是4个方面中最重要和研究最广泛的一个方向, 也是本文讨论的主要内容。1.1 语音识别技术现状1.1.1 语音识别获得应用伴随着语音识别技术的不断发展,诞生了全球首套多语种交谈式语音识别系统 E-talk。这是全球惟

3、一拥有中英混合语言的识别系统,能听能讲普通话、广东话和英语, 还可以高度适应不同的口音,因而可以广泛适用于不同文化背景的使用者,尤其是中国地 区语言差别较大的广大用户。由于E-talk可以大大提高工作效率,降低运营成本,并为用户提供更便捷的增值服务,我们相信它必将成为电信、证券、金融、旅游等重视客户服 务的行业争相引用的电子商务应用系统,并成为电子商务发展的新趋势,为整个信息产业 带来无限商机。目前,飞利浦推出的语音识别自然会话平台 SpeechPearl和SpeechMania已成功地应 用于国内呼叫中心,SpeechPearl中的每个识别引擎可提供高达 20万字的超大容量词库, 尤其在具有

4、大词汇量、识别准确性和灵活性等要求的各种电信增值服务中有着广泛的应 用。1.1.2 语音合成信息服务被用户接受语音合成技术把可视的文本信息转化为可听的声音信息,其应用的经济效益和社会效 益前景良好。尤其对汉语语音合成技术的应用而言,全球有十几亿人使用中文,其市场需 求、应用前景和经济效益等可见一斑。语音技术已逐渐在电信声讯信息服务领域智能电话查询系统中展开应用,并迅速推 广。在电话高度普及的今天,如果打电话就能查询到所需信息,无疑将给人们的日常生活 带来极大方便。汉语语音合成技术应用到声讯服务领域内,对现有的电话查询系统将产生 革命性的影响。语音技术与互联网已成功地结合。电话In ternet

5、 网关是一种用于实现电话网和In ternet网之间信息互访的系统。简而言之,就是让电话用户能够轻松地通过电话网访问 In ternet网。利用语音合成技术的信息服务得到了用户的广泛接纳,给用户生活提供了极大的方便。1.1.3 面向对象的语音编码长期以来,在通信网的发展中,解决信息传输效率是一个关键问题,极其重要。目前 科研人员已通过两个途径研究这一课题,其一是研究新的调制方法与技术,来提高信道传 输信息的比特率,指标是每赫兹带宽所传送的比特数;其二是压缩信源编码的比特率,例 如标准PCB编码,对3.4KHZ频带信号需用64KHZ编码比特率传送,而压缩这一比特率, 显然可以提高信道传送的话路数

6、。这对任何频率资源有限的传输环境来说,无疑是极为重 要的,尤其是在无线通信技术决定今后通信发展命运的今天更显得重要。实际上,压缩语 音编码比特率与话音存储、语音识别及语音合成等技术都直接相关。语音编码技术的进展对通信新业务的发展有极为明显的影响,例如IP电话业务、实时长途翻译业务、交换机的人工智能接口等。因此,国际电报电话咨询委员会(CCITT第15组提出了许多急需制订的话音编码标准建议,以推动通信网的发展。由于VLDSI的发展,实现这一技术的代价已从在昂贵的信道中采用,发展到一般信道中都可接受的水平,因此,编码技术日益受到重视。当前,数字移动通信和个人通信(PCN是深受人们重视的通信手段,其

7、重要问题之一是压缩语音编码速率,形成面向对象的语音编码技术。数字语音编码技术从1938年提出PCM开始,其编码方法已有了很大的发展,如 1968 年提出的线性预测编码技术(LPC、20世纪70年代末出现的隐马尔科夫技术(HMM以 及矢量量化(VQ等。1.1.4 口语机器翻译受到重视口语翻译的一个重要目的就是帮助聋哑人与正常人交流,近来越来越受到人们的重 视。首先,聋哑人要戴上一副特制的手套,计算机根据他打出的手语进行识别,然后,通 过语音合成系统就可以把图像信息翻译成语言信息。同时,系统还能够完成将正常人的语 言翻译成聋哑人的手语,只要将正常人说的话键入计算机,经程序分析处理之后,翻译成有表

8、情、有动作的三维图像,从而最终达到聋哑人与正常人之间通过翻译机进行交流的目的。 口语翻译的研究在其他很多方面都有重要价值,如用手势控制计算机,甚至用手势导航等。1.2语音识别技术的发展1.2.1 神经网络用于训练韵律模型由于人工神经网络具备良好的自学习和自适应能力,将其应用于语音合成系统中的韵 律模型研究具有很重要的意义。将神经网络模型与已有的文语转换系统有机结合,可以改 变传统的文语转换系统的韵律模型,具有更强的适应性和可训练性,使合成语音的自然度 得到显著提高,增加了系统的灵活性和风格的多样性。122 数据挖掘用于发现语音知识数据挖掘作为一种在大量数据库中发现隐藏新知识的计算技术方法,通过

9、语音定性模 型的建立,将数据分析和挖掘结果转化为逻辑规则或用可视化的形式进行表达。因此,将 数据挖掘和人机交互接口紧密地联系在一起,将对计算机语音信号处理的研究工作产生巨 大的推动力,为语音信号处理提供了一条崭新的研究途径。1.2.3 文本-可视语音转换系统研制成功文本-可视语音转换技术的出现是多媒体技术迅速发展的产物也迎合了社会发展的需求。它给人们的生活增添了新的色彩,使计算机更加人性化,人们与计算机的交流变得 更为简单。相信在不久的将来,它会在众多的技术、商业和娱乐领域得到广泛的应用,并 逐步进入我们每个人的生活。1.3语音识别技术的研究方向1.3.1 连续自然语音的识别与理解自然语音识别

10、与理解研究的是计算机如何理解人类的语言其目的就是让计算机能够理解人说的话,当我们使用计算机时,要告诉它应该做什么,它就能按照所理解的去执行。 虽然现在自然语音识别与理解的理论研究得到了进一步完善,同时,计算机的功能、容量 和速度都有了很大的提高,但研究仍局限在对孤立音节的识别与理解上。人类流畅的自然 发音不是孤立音节发音的简单组合,它是在一定时间范围内输出的一种连续语流,因此, 需要对连续语音进行处理。连续语音识别与理解技术中需要解决的难点很多,对它的研究 是语音技术今后的目标之一。1.3.2 高自然度、具有表现力的合成语音提高合成语音的自然度仍然是高性能文语转换的当务之急。就汉语语音合成来说

11、,目前在单字和词组级上,合成语音的可懂度和自然度已基本解决, 但是对于句子乃至篇章级, 其自然度问题就比较大。未来的文语转换系统的发展趋势是采用基于语境相关的合成思想 进行设计,能够将发音人的原始发音特征最大限度地保留下来,辅助以先进的层次化语言 韵律模型,通过分散统计的模型方法来涵盖语义语音之间的内在联系,使系统能够输出具 有高自然度和表现力的合成语音。但是,在目前的合成系统中,普遍存在合成输出语音的 机器味比较浓、语境的知识层次模型研究不完善等问题。因此获得高自然度、具有表现力的合成语音,也是今后语音技术的研究目标之一。133语音技术与多媒体技术的结合伴随着现代语音技术的不断发展,人类对语

12、音信号的需要已经不仅仅停留在可懂性和 正确性上,语音合成技术的研究方向已是合成语音的美感并同时输出辅助的视频特征,实 现虚拟主持人的效果,通过将视觉效果包括人的头部建模、唇形同步技术和表情因素等视 频信息的加入,可以更好地体现语音合成系统的表现力和感染力。因此,我们完全有理由 相信,语音技术和多媒体技术的有机结合将使合成系统展现出广阔的应用前景。1.3.4 语音技术与网络技术的结合目前,语音技术已逐渐应用于电信的声讯信息服务领域和互联网消息收发方面。随 着电话网与互联网的融合、网络信息项目的增多和时效性要求逐步提高,建立适合于股票 交易、航班动态查询、电话自动报税等业务的语音系统成为可能,电话

13、用户可以通过传统 的语音、传真获取互联网上无穷无尽的信息。这些业务将彻底解决传统数字录音回放技术 所无法解决的海量信息库和动态变化信息的实时生成与存储的难题。因此,将语音技术与 网络进行完美的结合具有强大的生命力 。1.3.5 多语种语言是人们交流的工具,不同民族有自己不同的语言,不同语言之间的交流在今天开 放的信息社会和网络时代显得十分重要,因此,多语种的文语合成有着独特的应用价值。 例如,在自动电话翻译、有声电子邮件等应用中都提出了多语种语音合成的需求,即使是 对汉语合成也有多方言文语转换问题。理想的多语种合成系统最好是各种语言共用一种合 成算法或语音合成器,但现有的语音合成系统大多是针对

14、某一种语言或若干种语言开发出 来的,所采用的算法及规则都是与某种语言密切相关的,因此很难推广到其他语种。如汉 语和西方语言之间存在着很大的差异,而目前国内的系统都是做汉语英语转换的,其韵律 控制规则完全不适合于英语,而且它们主要是合成汉语普通话的,即使推广到广东话和上 海话都有相当的难度。可见要真正解决多语种的文语合成,从文本处理到语音合成都必须有新的思路,因此,研制多语种语音合成转换系统具有重要的理论和现实意义。二 主要研究内容和方法语音识别技术是利用计算机对语音进行特征提取,获取最能表征语音特征的有用信 息,根据这些信息来对语音所代表的内容或说话人身份判断的技术。因此需要对语音波形 的幅值

15、、频率等特点进行研究,我们把语音识别的研究内容大致可以分为语音提取,特征提取,语音识别,内容分析,内容匹配。在特征提取之前,一个重要的问题是消除噪音、空白音及音长不同的影响。根据语音 识别技术的发展历史,语音识别方法大致可分为基于说话人的语音识别方法、基于说话内 容的语音识别方法、基于统计的语音识别方法和基于网络的语音识别方法。三基本设计要求及设计思路3.1 语音识别系统原理使用C语言编程,实现基于马尔科夫模型的数据特征提取,在此基础上编程实现特定 语音实例的语音识别;将语音识别功能编写成可供其他模块调用的函数,为进一步实现语 音识别系统提供基础;并且从中培养、提高查阅文献和综合运用知识的编程

16、开发能力。语音识别本质上是一种模式识别的过程,未知语音的模式与已知语音的参考模式逐一 进行比较,最佳匹配的参考模式被作为识别结果。图 1是基于模式匹配原理的自动语音识 别系统原理框图。语音信号输丁预处理特征 q提取训练1 J”参考模式判别识别 结果库模式1匹配 *规则K图1语音识别系统原理框图(1)预处理模块:对输入的原始语音信号进行处理,滤除掉其中的不重要的信息以及 背景噪声,并进行语音信号的端点检测、语音分帧以及预加重等处理。(2)特征提取模块:负责计算语音的声学参数,并进行特征的计算,以便提取出反 映信号特征的关键特征参数用于后续处理。 现在较常用的特征参数有线性预测(LPC)参数、 线

17、谱对(LSP)参数、LPCC MFCC ASCC感觉加权的线性预测(PLP)参数、动态差分参数 和高阶信号谱类特征等1。其中,Mel频率倒谱系数(MFCC参数因其良好的抗噪性和鲁 棒性而应用广泛。(3) 训练阶段:用户输入若干次训练语音,经过预处理和特征提取后得到特征矢量参 数,建立或修改训练语音的参考模式库。(4) 识别阶段:将输入的语音提取特征矢量参数后与参考模式库中的模式进行相似性度量比较,并结合一定的判别规则和专家知识(如构词规则,语法规则等)得出最终的识别结果。3.2 语音识别的几种基本方法当今语音识别技术的主流算法,主要有基于动态时间规整 (DTW)算法、基于非参数模 型的矢量量化

18、(VQ)方法、基于参数模型的隐马尔可夫模型 (HMM的方法、基于人工神经网 络(ANN)和支持向量机等语音。按照该过程,首先实现用 MATLAB程的过程,然后将具体MATLAB勺程序用C语言改写, 以便于在系统间进行移植等。四预期的课题进度计划第1周-第2周:查阅、学习相关文献资料,完成文献综述。第3周-第6周:了解基于马尔科夫模型语音数据特征提取及语音数据特征识别的 基 本原理;学习所需的C语言编程技术;进行初步的实验编程。第7周-第9周:在初步的原理实验通过后,根据具体的应用要求,编写、调试功 能较为全面的语音识别程序;实现基本的特征提取、识别功能。第10周-第12周:进一步优化程序,实现

19、具有实用功能的应用程序,完成外文文 献译稿。第13周-第14周:系统及程序测试,进行系统的输入,处理,输出全面测试。进行 实验报告总结,撰写论文,完成毕业设计初稿。第15周:整理完成程序设计说明书,完善所有设计图纸及程序,准备答辩。五参考文献1 胡光锐,语音处理与识别,上海科学技术文献出版社,1994.2 赵立,语音信号处理,机械工业出版社, 2003.3 程佩青,数字信号处理教程(第三版),清华大学出版,2007.4 拉宾纳L , Rabiner Lawrenee,阮平望,Juang Biing-Hwang,语音识别基本原理,清 华大学出版社,1999. 王炳锡,屈丹,彭煊,实用语音识别基础M.北京:国防工业出版社,2005.6 詹新明,黄南山,杨灿.语音识别技术研究进展J.现代计算机,2008.7 高新涛,陈乖丽,语音识别技术的发展现状及应用前景J.甘肃科技纵横,2007.

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!