第四章音频信号和声卡

上传人:沈*** 文档编号:193214546 上传时间:2023-03-09 格式:PDF 页数:7 大小:574.99KB
收藏 版权申诉 举报 下载
第四章音频信号和声卡_第1页
第1页 / 共7页
第四章音频信号和声卡_第2页
第2页 / 共7页
第四章音频信号和声卡_第3页
第3页 / 共7页
资源描述:

《第四章音频信号和声卡》由会员分享,可在线阅读,更多相关《第四章音频信号和声卡(7页珍藏版)》请在装配图网上搜索。

1、第四章 音频信号和声卡 4.1 音频编码基础 1、声音信号的特点 基频与音调 频率是指信号每秒钟变化的次数。人对声音频率的感觉表现为音调的高低,在音乐中称为音高。音调正是由频率 所决定的。音乐中音阶的划分是在频率的对数坐标(20log)上取等分而得的:谐波与音色 n O 称为 O 的高次谐波分量,也称为泛音。音色是由混入基音的泛音所决定的,高次谐波越丰富,音色就越有明亮感和穿透力。不同的谐波具有不同的幅值 An 和相位偏移 n,由此产生各种音色效果。幅度与音强 人耳对于声音细节的分辨只有在强度适中时才最灵敏。人的听觉响应与强度成对数关系。一般的人只能察觉出 3 分贝的音强变化,再细分则没有太多

2、意义。我们常用音量来描述音强,以分贝(dB=20log)为单位。在处理音频信号时,绝对强度可以放大,但其相对强度更有意义,一般用动态范围定义:动态范围20log(信号的最大强度/信号的最小强度)(dB)音宽与频带 频带宽度或称为带宽,它是描述组成复合信号的频率范围 2、声音信号的分类 多媒体技术中通常处理的是规则声音。规则声音是一种连续变化的模拟信号,可用一条连续的曲线来表示,称为声波。模拟信号的曲线无论多复杂,在任一时刻 t 都可分解成一系列正弦波的线性叠加 3、音频信号处理方法:对声音在时间轴和幅度两个方面进行离散化。分别称之为采样和量化。根据 Nyquist 采样定理,如果模拟信号的频谱

3、带宽是有限的(假设最高频率为 fm),那么用等于或大于 2fm 的采样频率进行采样所得到的等间隔离散时间序列(采样信号)能够完全惟一地代表原模拟信号,或者说能够由采样信号恢复出原始信号。4、音频文件的存储格式 音频数据必须以一定的数据格式存储在磁盘或其它媒体上。目前比较流行的几种格式为:00)sin()(nnntnAtfa、WAV 文件:WAV 是 Microsoft Windows 本身提供的音频格式,由于 Windows 本身的影响力,这个格式已经成为了事实上的通用音频格式。b、mp3 文件:在 mp3 出现之前,一般的音频编码即使以有损方式进行压缩能达到 4:1 的压缩比例已经非常不错了

4、。但是,mp3 可以实现 12:1 的压缩比例,这使得 mp3 迅速地流行起来。mp3 之所以能够达到如此高的压缩比例同时又能保持相当不错的音质是因为利用了知觉音频编码技术,也就是利用了人耳的特性,削减音乐中人耳听不到的成分,同时尝试尽可能地维持原来的声音质量。c、RM 文件:互联网大行其道之后,Real Media 出现了。这种文件格式几乎成了网络流媒体的代名词。RA、RMA 这两个文件类型就是 Real Media 里面向音频方面的。它是由 Real Networks 公司()发明的,特点是可以在非常低的带宽下(低达 28.8kbps)提供足够好的音质让用户能在线聆听。这一特点在互联网的早

5、期简直是广大网虫的福音。也就是因为出现了Real Media 之后,相关的应用比如网络广播,网上教学,网上点播等等才浮出水面,形成了一个新的行业。网络流媒体的道理其实非常简单,简单说就是将原来连续不断的音频分割成一个一个带有顺序标记的小数据包,将这些小数据包通过网络进行传递,在接收的时候再将这些数据包重新按顺序组织起来播放。如果网络质量太差,有些数据包收不到或者延缓了到达,它就跳过这些数据包不播放,以保证用户在聆听的内容是基本连续的。就是这么简单的道理,促成了网络上的又一个传奇。d、其它格式:AVI 等。5、度量声音的质量:声音质量可以用声音信号的带宽来衡量,等级由高到低依次是:DATCDFM

6、AM数字电话。除此之外度量声音的质量还有两种基本方法:一种是客观质量度量,主要是用信噪比来度量。另一种是主观度量方法,最常用的是 MOS(平均意见得分)法。4.2 音频信号压缩技术 音频压缩技术指的是对原始数字音频信号流(PCM 编码)运用适当的数字信号处理技术,在不损失有用信息量,或所引入损失可忽略的条件下,降低(压缩)其码率,也称为压缩编码。它必须具有相应的逆变换,称为解压缩或解码。音频信号在通过一个编解码系统后可能引入大量的噪声和一定的失真。对音频压缩技术的研究和应用由来已久,如 A 律、u 律编码就是简单的准瞬时压扩技术,并在 ISDN 话音传输中得到应用。一般来讲,可以将音频压缩技术

7、分为无损(lossless)压缩及有损(lossy)压缩两大类,而按照压缩方案的不同,又可将其划分为时域压缩、变换压缩、子带压缩,以及多种技术相互融合的混合压缩等等。各种不同的压缩技术,其算法的复杂程度(包括时间复杂度和空间复杂度)、音频质量、算法效率(即压缩比例),以及编解码延时等都有很大的不同。各种压缩技术的应用场合也因之而各不相同。(1)时域压缩(或称为波形编码)技术是指直接针对音频 PCM 码流的样值进行处理,通过静音检测、非线性量化、差分等手段对码流进行压缩。此类压缩技术的共同特点是算法复杂度低,声音质量一般,压缩比小(CD 音质 400kbps),编解码延时最短(相对其它技术)。此

8、类压缩技术一般多用于语音压缩,低码率应用(源信号带宽小)的场合。时域压缩技术主要包括 G.711、ADPCM、LPC、CELP,以及在这些技术上发展起来的块压扩技术如 NICAM、子带 ADPCM(SB-ADPCM)技术如 G.721、G.722、Apt-X 等。(2)子带压缩技术是以子带编码理论为基础的一种编码方法。子带编码理论最早是由 Crochiere 等于 1976 年提出的。其基本思想是将信号分解为若干子频带内的分量之和,然后对各子带分量根据其不同的分布特性采取不同的压缩策略以降低码率。通常的子带压缩技术和下面介绍的变换压缩技术都是根据人对声音信号的感知模型(心理声学模型),通过对信

9、号频谱的分析来决定子带样值或频域样值的量化阶数和其它参数选择的,因此又可称为感知型(Perceptual)压缩编码。这两种压缩方式相对时域压缩技术而言要复杂得多,同时编码效率、声音质量也大幅提高,编码延时相应增加。一般来讲,子带编码的复杂度要略低于变换编码,编码延时也相对较短。由于在子带压缩技术中主要应用了心理声学中的声音掩蔽模型,因而在对信号进行压缩时引入了大量的量化噪声。然而,根据人类的听觉掩蔽曲线,在解码后,这些噪声被有用的声音信号掩蔽掉了,人耳无法察觉;同时由于子带分析的运用,各频带内的噪声将被限制在频带内,不会对其它频带的信号产生影响。因而在编码时各子带的量化阶数不同,采用了动态比特

10、分配技术,这也正是此类技术压缩效率高的主要原因。在一定的码率条件下,此类技术可以达到“完全透明”的声音质量(EBU 音质标准)。子带压缩技术目前广泛应用于数字声音节目的存储与制作和数字化广播中。典型的代表有著名的 MPEG-1 层、层(MUSICAM),以及用于 Philips DCC 中的 PASC(Precision Adaptive Subband Coding,精确自适应子带编码)等。(3)变换压缩技术与子带压缩技术的不同之处在于该技术对一段音频数据进行“线性”的变换,对所获得的变换域参数进行量化、传输,而不是把信号分解为几个子频段。通常使用的变换有 DFT、DCT(离散余弦变换)、M

11、DCT 等。根据信号的短时功率谱对变换域参数进行合理的动态比特分配可以使音频质量获得显著改善,而相应付出的代价则是计算复杂度的提高。变换域压缩具有一些不完善之处,如块边界影响、预回响、低码率时声音质量严重下降等。然而随着技术的不断进步,这些缺陷正逐步被消除,同时在许多新的压缩编码技术中也大量采用了传统变换编码的某些技术。有代表性的变换压缩编码技术有 DolbyAC-2、AT&T 的 ASPEC(Audio Spectral Perceptual Entropy Coding)、PAC(PerceptualAudioCoder)等。几种基本的编码方法:脉冲编码调制,增量调制,自适应脉冲编码调试,

12、差分脉冲编码调试,自适应差分脉冲编码调试,子带编码。4.3 音频编码标准 1、G.711 本建议公布于 1972 年,它给出话音信号编码的推荐特性。话音的抽样率为 8000Hz,允许偏差是50ppm(Parts Permillion)。每个样值采用 8 位二进制编码。使用 A 律和 律非线性量化技术。速率为 64kbps,主要用于公用电话网中。2、G.722 G.722 建议的带宽音频压缩仍采用波形编码技术,因为要保证既能适用于话音,又能用于其他方式的音频,只能考虑波形编码。G.722 编码采用了高低两个子带内的 ADPCM 方案,高低子带的划分以 4KHz 为界。然后再对每个子带内采用类似

13、G.721 建议的 ADPCM 编码,因此 G.722 建议的技术方案可以简写为 SB-ADPCM(子带-自适应差分脉冲码调制)。速率为64kbps。主要用于视听多媒体和会议电话。3、G723.1 1996 年,CCITT(国际电报电话咨询委员会)通过了 G723.1 标准用于多媒体传输的5.3kbps 或 6.3kbps 双速率语音编码。采用多脉冲激励最大似然量化算法。4、G.728 为了进一步降低压缩的速率,CCITT 于 1992 年制定了 G.728 标准,是用基于低时延码本激励线性预测编码算法,速率为 16kbps,主要用于公共电话网中。5、G.729 1996 年制定,使用 8kb

14、ps 共轭结构代数码激励线性预测算法,此标准用于无线移动网,数字多路复用系统和计算机通信系统中。6、MP3 压缩技术 MP3 是一种音频压缩的国际技术标准。MP3 格式开始于二十世纪 80 年代中期,在德国夫朗和费研究所(Fraunhofer Institute)开始的,研究致力于高质量、低数据率的声音编码。1989 年,夫朗和费研究所在德国被获准取得了 MP3 的专利权,几年后这项技术被提交到国际标准组织(ISO),整合进入了 MPEG-1 标准。MP3 格式是一个让音乐界产生巨大震动的一个声音格式。MP3 的全称是 Moving Picture Experts Group,Audio La

15、yer 3,它所使用的技术是在 VCD(MPEG-1)的音频压缩技术上发展出的第三代,而不是 MPEG-3。MPEG 代表的是 MPEG 活动影音压缩标准,MPEG 音频文件指的是 MPEG 标准中的声音部分即 MPEG 音频层。MPEG 音频文件根据压缩质量和编码复杂程度的不同可分为三层(MPEG AUDIO LAYER 1/2/3 分别与 MP1、MP2 和 MP3 这三种声音文件相对应)。MPEG 音频编码具有很高的压缩率,MP1 和 MP2 的压缩率分别为 4:1 和 6:1-8:1,而 MP3的压缩率则高达 10:112:1,也就是说一分钟 CD 音质的音乐未经压缩需要 10MB 存

16、储空间,而经过 MP3 压缩编码后只有 1MB 左右,同时其音质基本保持不失真。音乐信号中有许多冗余成分,其中包括间隔和一些人耳分辨不出的信息(如混杂在较强背景中的弱信号)。MP3 为降低声音失真采取了名为“感官编码技术”的编码算法:编码时先对音频文件进行频谱分析,然后用过滤器滤掉噪音,接着通过量化的方式将剩下的每一位打散排列,最后形成具有较高压缩比的 MP3 文件,并使压缩后的文件在回放时能够达到比较接近原音源的声音效果。虽然它是一种有损压缩,但是它的最大优势是以极小的声音失真换来了较高的压缩比。4.4 声卡的组成和工作原理 声卡的基本构造:一般的声卡都是由声音控制/处理芯片、功放芯片、声音

17、输入/输出端口几部分组成。在自然界我们所听到的声音都是经由空气或一些介质所传播的,就物理学 的观点来看,声音可以用波形图表示出音高(Pitch)、音量(Volume)、音色(Tone 或 Timbre)叁种组成要素。这些声音都是连续的信号,也就是所谓的模拟信号,然而我们都清楚微机只能处理 0或 1 的数字信号,也就是不连续的信号。由此可见声卡最基本的功能,就是要有把所录到的模拟信号转换成为微机可以接受的数字信号,以及将处理完成的数字音源信号转换成模拟音源信号输出,一般将这两种过程称作:Analog-to-Digital Conversion(ADC)与 Digital-to-Analog Co

18、nversion(DAC)。声卡的工作原理 1.输出 由 PCI 总线通过系统音频接口传来的音频信号首先输入到主芯片,主芯片对它们进行音频运算处理产生可输出的数字音频信号,信号则通过线路输出到 CODEC。CODEC 将信号马上时行数字解码,转化为音频模拟信号,然后根据 Direct Sound 开启的音频端口选择哪些信号混合输出,混合后的模拟音频信号因为太过微弱,所以马上输出到运放电路进行电压放大,将其到可以满足功率放大电路的输入要求的水平.2.输入 当一个音源输入后,会先经过滤器和 CODEC 做预先的取样、模拟转数字的变换,再由数字信号处理芯片(DSP)负责将此音源做各种处理,其中可能包

19、括由 FM 芯片产生合成音效,或是到波表取出音源,还可以通过总线接口芯片存取光驱或硬盘中的音效文件。4.5 语音合成技术及应用 语音合成是以言语产生模型为基础,分析抽取激励源,声道的特征参数;再利用这些特征参数重新综合出语音信号的过程。语音合成是通过一个声学模块来具体实现的。早期的语音合成技术的研究,往往集中在语音合成算法本身,其研究的方法和手段与语音编码有很多相似之处。进入 20 世纪 90 年代以来,波形拼接(PSOLA,Pitch Synchronous OverLap Add)的算法,越来越被广泛地应用在语音合成系统中。PSOLA 较好地解决了语音拼接中的问题,从而推动了波形编辑语音合

20、成技术的发展与应用。近年来,一些新的方法,如人工神经网络、决策树、隐马尔可夫模型等被广泛地应用于语音合成技术。TTS 即文本语音转换技术(Text To Speech),它涉及声学、语言学、数学信号处理技术、多媒体技术等多个学科技术,是中文信息处理领域的一项前沿技术,实现把计算机中任意出现的文字转换成自然流畅的语音输出。TS 系统是一种以文字串为输入的规则合成系统。其输入的文字串为通常的文本字符串。系统中的文本分析器首先根据发音字典,将输入的文字串分节为带有标记的词及其读音符号,再根据语义规则和语音规则,为每一个词、每一个音节确定声音等级和语调,以及各种停顿等。这样文字串就转换为代码串。规则合

21、成系统就可据此合成抑扬顿挫和不同语气的语句。视觉语音是指人们在用语言交流时所表达出的面部表情和动作,它能在一定程度上传达人们想要表达的意思,并能帮助人们加深对语言的理解。近年来出现了另一种多媒体研究热潮,即把声音和文字、图像集成在一起,形成直接由文本到可视语音的转换(text-to-visual speech,TTVS),使人们在听计算机说话的同时能看到一个合成的人脸,使人机交互界面更为友好、和谐。4.6 语音识别技术及应用 语音识别的发展历史 语音识别技术的研究工作始于 20 世纪 50 年代,当时 AT&T Bell 实验室实现了第一个可识别十个英文数字的语音识别系统Audry 系统。60

22、 年代,计算机的应用推动了语音识别的发展。70 年代,语音识别领域取得了突破。80 年代,语音识别研究进一步走向深入,其显著特征是 HMM 模型和人工神经元网络(ANN)在语音识别中的成功应用。90 年代,随着多媒体时代的来临,迫切要求语音识别系统从实验室走向实用。语音识别技术 不同的语音识别系统,虽然具体实现细节有所不同,但所采用的基本技术相似,它所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。此外,还涉及到语音识别单元的选取。语音信号中含有丰富的信息,这些信息称为语音信号的声学特征。特征提取是对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。由于语音信号的时变特性,特征提取必须在一小段语音信号上进行,也即进行短时分析。语音识别系统的类型 语音识别系统有以下几种分类方式:根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统 根据对说话人说话方式的要求,可以分为孤立字(词)语音识别系统,连接词语音识别系统以及连续语音识别系统 根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统 语音识别技术的应用 语音邮件集成 数据库输人和询问应用 语音命令和控制应用

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!