多媒体第3章音频信息处理技术

上传人:dream****gning 文档编号:167492871 上传时间:2022-11-03 格式:PPTX 页数:244 大小:2.19MB
收藏 版权申诉 举报 下载
多媒体第3章音频信息处理技术_第1页
第1页 / 共244页
多媒体第3章音频信息处理技术_第2页
第2页 / 共244页
多媒体第3章音频信息处理技术_第3页
第3页 / 共244页
资源描述:

《多媒体第3章音频信息处理技术》由会员分享,可在线阅读,更多相关《多媒体第3章音频信息处理技术(244页珍藏版)》请在装配图网上搜索。

1、第第3 3章章 音频信息处理技术音频信息处理技术 第第3章章 音频信息处理技术音频信息处理技术 3.1 基本概念基本概念 3.2 音频信号数字化音频信号数字化 3.3 音频信号压缩编码音频信号压缩编码 3.4 语音压缩编码标准语音压缩编码标准 3.5 常见多媒体应用的语音编码器的选择常见多媒体应用的语音编码器的选择3.6 IP电话技术电话技术 练习与思考题练习与思考题 第第3 3章章 音频信息处理技术音频信息处理技术 3.1 基基 本本 概概 念念 1 听觉掩蔽 在人类听觉系统中,一个声音的存在会影响人们对其他声音的听觉能力,使一个声音在听觉上掩蔽了另一个声音,即所谓的“掩蔽效应”。由于掩蔽声

2、的存在,使被掩蔽声的闻域(人刚好可听到声音的响度)必须提高的分贝数被定义为一个声音对另一个声音的掩蔽值。掩蔽效应受四种要素的影响:时间、频率、声压级、声音品质(例如,纯音和噪音)。第第3 3章章 音频信息处理技术音频信息处理技术 2 频谱掩蔽 频谱掩蔽发生在高电平音调使附近频率的低电平声音不能被人耳听到的情况下。当频率离掩蔽音调越远时,掩蔽效应减弱的速度就越快。可以这样来解释这种效应,雪橇上的铃声可以掩蔽高音碰撞的声音,但不能掩蔽低音鼓的声音。第第3 3章章 音频信息处理技术音频信息处理技术 3 瞬态掩蔽 声音有一个冲击时间(即幅值随时间推移而增大的时间段)和一个衰退时间(即幅值随时间推移而减

3、小的时间段)。拨小提琴所产生声音的冲击和衰退都很快,而拉小提琴所产生声音的冲击和衰退都很慢。此外,在冲击前和衰退后,声音都有掩蔽效应。前掩蔽时间为50200 ms,而后掩蔽时间约为该范围的1/10。第第3 3章章 音频信息处理技术音频信息处理技术 4 失真 失真是用得非常广泛的概念,在这里主要用来描述重现声音和原来声音的相差程度。而表示这种相差程度的方法有两种:(1)失真的主观度量。失真的一个主观评价指标称为平均观点分(Mean Opinion Score,MOS)。听众根据系统质量的好坏使用N分制给系统打分。例如,在为HDTV选择音频压缩方案时就使用了这种度量方法。表3.1-1给出了一种常见

4、的5分制系统。第第3 3章章 音频信息处理技术音频信息处理技术 表3.1-1 5分制平均观点分举例 平均观点分 质量等级 主观感觉 5 极好 觉察不到 4 好觉察得到,但不难听 3 一般 有点难听 2 差 难听,但不反感 1 极差 难以忍受第第3 3章章 音频信息处理技术音频信息处理技术 一方面,MOS确实是度量音频重现的最低限度:听起来感觉怎么样?另外一方面,度量的结果随听众、测试位置和原材料的不同而不同,因此,很难将一组结果和另一组结果相比较。第第3 3章章 音频信息处理技术音频信息处理技术 (2)失真的客观度量。失真的客观度量是一种可以校准和重现的测试,它可对原始信号和重现信号之间的差别

5、进行度量。这里有个问题,就是失真的绝对大小也许和失真声音使人厌烦的程度没有多大关系。现实生活中有一个失真的例子,我们几乎每天都会碰到,但它并不是那么令人厌烦,这个例子就是削波。如果一个纯音(正弦波)通过一个动态范围不足的放大器,那么,放大器也许会将该正弦波的波峰和波谷拉平,这样就产生了一组奇谐波。对于这种类型的失真,原始(或基波)信号和失真之间有一种一致的对应关系,因此,这种失真并不一定使你感到烦躁。第第3 3章章 音频信息处理技术音频信息处理技术 5 声道 单声道(Monophonic)意味着单个声源,而立体声并不表示有两个声源,立体声(Stereophonic)指的是三维听觉效果。为了确定

6、声源位置,大脑要将每个耳朵所听到声音的三个属性进行比较,这三个属性分别是:(1)幅值(Amplitude):如果左耳听到的声音比右耳的大,那么我们就认为声音在左边。第第3 3章章 音频信息处理技术音频信息处理技术 (2)相位(Phase):如果人的两耳听到的信号具有相同的相位,那么大脑就认为声音在中部;如果两耳听到信号有180的相位差,那么声音就不包含方向信息了。(3)时序(Timing):声音的传播速度为1英尺每毫秒;如果声音到达右耳的时间比到达左耳的早,我们就认为声源就在右边。一般来说,如果听众所处的位置刚好是两个声源(例如两个扬声器)的中轴线上,则听众就可以享受三维立体声的效果;否则听众

7、就会失去完全的立体声效果,因为他距离其中一个声源的距离更短。第第3 3章章 音频信息处理技术音频信息处理技术 声源位置可以通过添加一个中央通道的方法来确定。为此,Dolby公司在上个世纪70年代就实现了由四个声道产生三维立体声的效果,这四个声道分别是:左声道、右声道、中央声道、环绕声道。为了使声音更加丰富,现在的立体声剧院(包括家庭剧院)都增加了一个超低音声道,主要目的是增强低音。第第3 3章章 音频信息处理技术音频信息处理技术 3.2 音频信号数字化音频信号数字化 音频信息处理主要包括音频信号的数字化和音频信息的压缩两大技术,图3.2-1为音频信息处理结构框图。音频信息的压缩是音频信息处理的

8、关键技术,而音频信号的数字化是为音频信息的压缩作准备的。音频信号的数字化过程就是将模拟音频信号转换成有限个数字表示的离散序列,即数字音频序列,在这一处理过程中涉及到模拟音频信号的采样、量化和编码。对同一音频信号采用不同的采样、量化和编码方式就可形成多种形式的数字化音频。第第3 3章章 音频信息处理技术音频信息处理技术 图3.2-1 音频信息处理框图 模拟音频信号音频信号数字化采 样量 化编 码按不同应用目标进行数字压缩第第3 3章章 音频信息处理技术音频信息处理技术 (1)采样过程。模拟音频信号是一个在时间上和幅值上都连续的信号。采样过程就是在时间上将连续信号离散化的过程,采样一般是按均匀的时

9、间间隔进行的。目前常见的音频信号的频率范围如图3.2-2所示,由图可见:电话信号的频带为200 Hz3.4 kHz,调幅广播(AM)信号的频带为50 Hz7 kHz,调频广播(FM)信号的频带为20 Hz15 kHz,高保真音频信号的频带为10 Hz20 kHz。根据不同的音频信源和应用目标,可采用不同的采样频率,如8 kHz、11.025 kHz、22.05 kHz、16 kHz、37.8 kHz、44.1 kHz或48 kHz等都是典型的采样频率值。第第3 3章章 音频信息处理技术音频信息处理技术 图3.2-2 常见音频应用带宽示意图 数字激光唱盘CD10 205020034007 k 1

10、5 k 20 k 频率/HzFM无线电广播AM无线电广播电 话第第3 3章章 音频信息处理技术音频信息处理技术 (2)量化过程。量化过程是指将每个采样值在幅度上再进行离散化处理。量化可分为均匀量化(量化值的分布是均匀的或者说每个量化阶距是相同的)和非均匀量化。量化会引入失真,并且量化失真是一种不可逆失真,这就是通常所说的量化噪声。(3)编码过程。编码过程是指用二进制数来表示每个采样的量化值。如果量化是均匀的,又采用自然二进制数表示,这种编码方法就是脉冲编码调制(Pulse Code Modulation,PCM),这是一种最简单、最方便的编码方法。第第3 3章章 音频信息处理技术音频信息处理技

11、术 3.3 音频信号压缩编码音频信号压缩编码 从20世纪30年代提出PCM(脉冲编码调制)原理以及声码器的概念以来,音频信息压缩编码技术主要是向基于波形和基于参数两个方向发展的,从这个角度出发,音频信息编码技术可分为三类:第第3 3章章 音频信息处理技术音频信息处理技术 (1)波形编码。这种方法主要基于语音波形预测,它力图使重建的语音波形保持原信号的波形状态。它的优点是编码方法简单、易于实现、适应能力强、语音质量好等,缺点是压缩比相对来说较低,需要较高的编码速率。常用的波形法编码技术有增量调制(DM)、自适应差分脉冲编码调制(ADPCM)、子带编码(SBC)和矢量量化编码(VQ)等等。第第3

12、3章章 音频信息处理技术音频信息处理技术 (2)参数编码。这种方法主要基于参数的编码方法。与波形编码不同的是,这类编码方法通过语音信号的数学模型对语音信号特征参数(主要是指表征声门振动的激励参数和表征声道特性的声道参数)进行提取及编码,力图使重建的语音信号尽可能保持原信号的语意,而重建的语音信号波形同原信号的波形可能会有较大的区别。基于这种编码技术的编码系统一般称为声码器,它主要用于在窄带信道上提供4.8 kb/s以下的低速语音通信和一些对延时要求较宽的应用场合(如卫星通信等)。最常用的参数编码法为线性预测编码(LPC)。第第3 3章章 音频信息处理技术音频信息处理技术 (3)混合编码。这种方

13、法克服了原有波形编码与参数编码的弱点,并且结合了波形编码的高质量和参数编码的低数据率,取得了比较好的效果。混合编码是指同时使用两种或两种以上的编码方法进行编码的过程。由于每种编码方法都有自己的优势和不足,若是用两种,甚至两种以上的编码方法进行编码,可以优势互补,克服各自的不足,从而达到高效数据压缩的目的。无论是在音频信号的数据压缩中,还是后面章节将要描述的图像信号的数据压缩中,混合编码均被广泛采用。第第3 3章章 音频信息处理技术音频信息处理技术 3.3.1 增量调制 1 一般增量调制 增量调制(DM)是一种比较简单且有数据压缩功能的波形编码方法。增量调制的系统结构框图如图3.3-1所示。在编

14、码端,由前一个输入信号的编码值经解码器解码可得到下一个信号的预测值。输入的模拟音频信号与预测值在比较器上相减,从而得到差值。差值的极性可以是正也可以是负。若为正,则编码输出为1;若为负,则编码输出为0。这样,在增量调制的输出端可以得到一串1位编码的DM码。增量调制编码过程示意图如图3.3-2所示。第第3 3章章 音频信息处理技术音频信息处理技术 图3.3-1 增量调制的系统结构框图 输入信号比较器极性判别译码器调制器脉 冲发生器信 道第第3 3章章 音频信息处理技术音频信息处理技术 图3.3-2 增量调制编码过程示意图 1 1 1 1 1 110 0 0 0 1 100 0 1 0 0010u

15、(模拟输入)输出码第第3 3章章 音频信息处理技术音频信息处理技术 在图3.3-2中,纵坐标表示输入的模拟电压,横坐标表示随时间增加而顺序产生的DM码。图中虚线表示输入的音频模拟信号。从图3.3-2可以看到,当输入信号变化比较快时,编码器的输出无法跟上信号的变化,从而会使重建的模拟信号发生畸变,这就是所谓的“斜率过载”。可以看出,当输入模拟信号的变化速度超过了经解码器输出的预测信号的最大变化速度时,就会发生斜率过载。增加采样速度,可以避免斜率过载的发生。但采样速度的增加又会使数据的压缩效率降低。第第3 3章章 音频信息处理技术音频信息处理技术 从图3.3-2中还能发现另一个问题:当输入信号没有

16、变化时,预测信号和输入信号的差会十分接近,这时,编码器的输出是0和1交替出现的,这种现象就叫做增量调制的“散粒噪声”。为了减少散粒噪声,就希望使输出编码1位所表示的模拟电压 (又叫量化阶距)小一些,但是,减少量化阶距 会使在固定采样速度下产生更严重的斜率过载。为了解决这些矛盾,促使人们研究出了自适应增量调制(ADM)方法。第第3 3章章 音频信息处理技术音频信息处理技术 2.自适应增量调制(ADM)从前面分析可以看出,为减少斜率过载,希望增加阶距;为减少散粒噪声,又希望减少阶距。于是人们就想,若是能使DM的量化阶距 适应信号变化的要求,必须是既降低了斜率过载又减少了散粒噪声的影响。也就是说,当

17、发现信号变化快时,增加阶距;当发现信号变化缓慢时,减少阶距。这就是自适应增量调制的基本出发点。第第3 3章章 音频信息处理技术音频信息处理技术 在ADM中,常用的规则有两种:一种是控制可变因子 M,使量化阶距在一定范围内变化。对于每一个新的采样,其量化阶距为其前面数值的M倍。而M的值则由输入信号的变化率来决定。如果出现连续相同的编码,则说明有发生过载的危险,这时就要加大M。当0,1信号交替出现时,说明信号变化很慢,会产生散粒噪声,这时就要减少M 值。其典型的规则为)1()(2/1)1()(2kykykykyM(3.3-1)第第3 3章章 音频信息处理技术音频信息处理技术 另一类使用较多的自适应

18、增量调制称为连续可变斜率增量(CVSD)调制。其工作原理如下:如果调制器(CVSD)连续输出三个相同的码,则量化阶距加上一个大的增量,也就是说,因为三个连续相同的码表示有过载发生。反之,则量化阶距增加一个小的增量。CVSD的自适应规则为QkkykykyPkk)1()2()1()()1()(其他(3.3-2)第第3 3章章 音频信息处理技术音频信息处理技术 式中,可在01之间取值。可以看到,的大小可以通过调节增量调制来适应输入信号变化所需时间的长短。P和Q为增量,而且P要大于等于Q。第第3 3章章 音频信息处理技术音频信息处理技术 3.3.2 自适应差分脉冲编码调制 1.非均匀PCM(律压扩方法

19、)若输入的音频信号是话音信号,使用8 kHz采样频率进行均匀采样,而后再将每个样本编码为8位二进制数字信号,则我们就可以得到数据率为64 kb/s的PCM信号,这就是典型的脉冲编码调制。这种编码方式对输入的音频信号进行均匀量化,不管输入的信号是大还是小,均采用同样的量化间隔。但是,对音频信号而言,大多数情况下信号幅度都很小,出现大幅度信号的概率很小。第第3 3章章 音频信息处理技术音频信息处理技术 然而,为了适应这种很少出现的大信号,在均匀量化时不得不增加二进制码位。对大量的小信号来说,这样多的码位是一种浪费。因此,均匀量化PCM效率不高,有必要进行改进。采用非均匀量化编码的实质在于减少表示采

20、样的位数,从而达到数据压缩的目的。其基本思路是,当输入信号幅度小时,采用较小的量化间隔;当输入信号幅度大时,采用较大的量化间隔。这样就可以做到在一定的精度下,用更少的二进制码位来表示采样值。这种对小信号扩展、大信号压缩的特性可用下式表示:第第3 3章章 音频信息处理技术音频信息处理技术 式中:x为输入电压与A/D变换器满刻度电压之比,其取值范围为11;sgn(x)为x 的极性;为压扩参数,其取值范围为100500,越大,压扩越厉害。该压扩规则的特性如图3.3-3所示,通常将此曲线叫做律压扩特性。)1ln()1ln()sgn(xxy(3.3-3)第第3 3章章 音频信息处理技术音频信息处理技术

21、图3.3-4 律压扩数据格式 b7b6b5b4b3b2b1b0折线编号数据位符号位第第3 3章章 音频信息处理技术音频信息处理技术 在实际应用中,规定某个值,采用数段折线来逼近图3.3-3所示的压扩特性。这样就大大地简化了计算并保证了一定的精度。例如,当选择255时,压扩特性用8段折线来代替。当用8位二进制表示一个采样时,可以得到无压扩的13位二进制数码的音频质量。这8位二进制数中,最高位表示符号位,其后3位用来表示折线编号,最后4位用来表示数据位。律压扩数据格式如图3.3-4所示。第第3 3章章 音频信息处理技术音频信息处理技术 在解码恢复数据时,根据符号和折线即可通过预先做好的表恢复原始数

22、据。另外一种常用的压扩特性为A律13折线,它实际上是将律压扩特性曲线以13段直线代替而成的。我国和欧洲采用的是A律13折线压扩法,美国和日本采用的是律。对于A律13折线,一个信号样值的编码由两部分构成:段落码(信号属于13折线哪一段)和段内码。第第3 3章章 音频信息处理技术音频信息处理技术 在非均匀PCM编码中,存在着大量的冗余信息。这是因为音频信号邻近样本间的相关性很强。若采用某种措施,便可以去掉那些冗余的信息,差分脉冲编码调制(DPCM)是常用的一种方法。第第3 3章章 音频信息处理技术音频信息处理技术 2.差分脉冲编码调制(DPCM)差分脉冲编码调制的中心思想是对信号的差值而不是对信号

23、本身进行编码。这个差值是指信号值与预测值的差值。预测值可以由过去的采样值进行预测,其计算公式如下所示:iiNiNNyayayayay122110(3.3-4)第第3 3章章 音频信息处理技术音频信息处理技术 式中,ai 为预测系数。因此,利用若干个前面的采样值可以预测当前值。当前值与预测值的差为000yye(3.3-5)第第3 3章章 音频信息处理技术音频信息处理技术 差分脉冲编码调制就是将上述每个样点的差值量化编码,而后用于存储或传送。由于相邻采样点有较大的相关性,预测值常接近真实值,故差值一般都比较小,从而可以用较少的数据位来表示,这样就减少了数据量。在接收端或数据回放时,可用类似的过程重

24、建原始数据。差分脉冲调制系统的方框图如图3.3-5所示。第第3 3章章 音频信息处理技术音频信息处理技术 图3.3-5 差分脉冲调制系统的方框图 (a)编码器;(b)解码器 量化器输 出输 入信 号信 号y0采样预测器(a)预测器滤波(b)第第3 3章章 音频信息处理技术音频信息处理技术 由图3.3-5可见,只要求出预测值 ,则实现这种方法就不困难了,而要得到 ,关键的问题是确定预测系数a i。如何求a i呢?我们定义a i就是使估值的均方差最小的a i。估值的均方差可由下式决定:0y0y)()(222110200NNyayayayEyyE(3.3-6)第第3 3章章 音频信息处理技术音频信息

25、处理技术 为了求得均方差最小,就需对式(3.3-6)中各个a求导数并使方程等于0,最后解联立方程可以求出ai。预测系数与输入信号特性有关,也就是说,采样点同其前面采样点的相关性有关。只要预测系数确定,问题便可迎刃而解。通常一阶预测系数ai的取值范围为0.81。第第3 3章章 音频信息处理技术音频信息处理技术 3.自适应差分脉冲编码调制(ADPCM)为了进一步提高编码的性能,人们将自适应量化器和自适应预测器结合在一起用于DPCM之中,从而实现了自适应差分脉冲编码调制(ADPCM)。其简化的框图如图3.3-6所示。第第3 3章章 音频信息处理技术音频信息处理技术 自适应量化器首先检测差分信号的变化

26、率和差分信号的幅度大小,而后决定量化器的量化阶距。自适应预测器能够更好地跟踪语音信号的变化。因此,将两种技术组合起来使用,从而可以提高系统性能。从图3.3-6中可以看出,在图3.3-6(a)编码器框图中,实际上也包含着图3.3-6(b)的解码器框图,两者的算法是一样的。第第3 3章章 音频信息处理技术音频信息处理技术 图3.3-6 ADPCM编解码框图(a)ADPCM编码器;(b)ADPCM解码器 量化器自适应预测器量化阶自适应逆量化器(a)逆量化器量化阶自适应自适应预测器(b)第第3 3章章 音频信息处理技术音频信息处理技术 3.3.3 子带编码 声音信号对人耳的听觉贡献与信号频率有关,比如

27、人耳对1 kHz附近频率成分尤其敏感。再比如实验发现,如果讲话人发出无意义的音节,则听话人在保留400 Hz6 kHz频率范围的语音情况下,就可听清此音节;而上限频率降低至1.7 kHz时可听清约一半;如果讲话人发出的是连续有意义的句子,那么只保留频率范围为400 Hz3 kHz的语音就可完全听懂了。第第3 3章章 音频信息处理技术音频信息处理技术 与人耳听觉特性在频率上分布不均匀相对应,人所发出的语音信号的频谱也不是平坦的。事实上,多数人的语音信号能量主要集中在频率为500 Hz1 kHz范围内,并随着频率的升高很快衰减。根据上述特点,可以设想将输入信号用某种方法划分成不同频段上的子信号,然

28、后区别对待,根据各子信号的特性,分别编码。比如,对语音信号中能量较大,对听觉有重要影响的部分(如500800 Hz频段内的信号)分配较多的码字,对次要信号(如话带中大于3 kHz的信号)则分配较少的码字。第第3 3章章 音频信息处理技术音频信息处理技术 各子信号分别编码后的码字在接收方被分别解码,最后再合成出解码语音。因此,可以设想,首先用一组带通滤波器,将输入的音频信号分成若干个连续的频段,并将这些频段称为子带。然后,再分别对这些子带中的音频分量进行采样和编码。最后,再将各子带的编码信号组织到一起进行存储或送到信道上传送。在信道的接收端(或在回放时)得到各子带编码的混合信号,将各子带的编码取

29、出来,对它们分别进行解码,产生各子带的音频分量,再将各子带的音频分量组合在一起,恢复原始的音频信号。子带编码的原理框图如图3.3-7所示。由图3.3-7可以看出上述的基本原理。第第3 3章章 音频信息处理技术音频信息处理技术 图3.3-7 子带编码的原理框图 带通滤波1综合器信号输入输入输 出信号输出带通滤波2带通滤波n编码器编码器编码器分配器译码器译码器译码器带通滤波1带通滤波2带通滤波n第第3 3章章 音频信息处理技术音频信息处理技术 子带编码能够实现较高的压缩比,而且具有较高的质量,因此,得到了比较广泛的应用。这种编码常常与其他一些编码混合使用,以实现混合编码。这一问题留待后面再作说明。

30、第第3 3章章 音频信息处理技术音频信息处理技术 3.3.4 变换域编码 在子带编码中,划分子带的方法是通过带通滤波器来完成的。而另外一种方法就是通过变换域编码方法,将输入信号直接转换到频域,然后在频域划分各频段,根据不同的频段能量大小分配码字然后编码,收方解码后再用相应的反变换转换成时域信号。第第3 3章章 音频信息处理技术音频信息处理技术 与子带编码类似,变换域编码也是一种“频域”编码。事实上,只有采用离散傅里叶变换(FFT)或离散余弦变换(DCT),变换后的各系数才真正代表频率分量。由于DCT接近最佳变换Karhunen-Loeve变换(KLT),因而语音变换域编码基本上都采用DCT,在

31、这个意义上可以称语音变换域编码为频域编码。第第3 3章章 音频信息处理技术音频信息处理技术 在语音子带编码中,常用的子带数目为24,宽带音频编码也只不过用32个子带。语 音的变换域编码,其变换系数,或称频率分量数目则要大得多,通常取在123256之间。变换域编码将连续8个输入语音样点块,经线性变换后再进行量化处理,因此变换域编码也称块编码。量化的方法可以采用标量量化,也可以采用矢量量化。第第3 3章章 音频信息处理技术音频信息处理技术 KLT变换能够使变换域编码性能充分发挥,但在使用KLT时,需要对每个信号输入块都求出N个特征矢量,并以边信息(Side Information,或称为“辅助信息

32、”)的方式传送到接收端。另外,KLT在进行变换时需要做N2次乘法加法运算,不存在快速算法,因此在实际中并没有得到应用。事实上,它只给出一些次优而实用的算法在性能上的界限,在理论研究上起参照作用。在实际应用中,离散Hadamard变换(DHT)、离散Walsh Hadamard变换(DWHD)、离散傅里叶变换(DFT)以及离散余弦变换(DCT)等都得到了应用。特别是,DCT在语音及图像的变换域编码中,由于其性能非常接近于KLT,又有快速算法,因此得到了广泛的应用。第第3 3章章 音频信息处理技术音频信息处理技术 DCT的一个重要优点是:它真正代表了频域变换,因此可以很容易根据人耳的特性来控制各频

33、率分量的量化误差,使得在数码率一定的条件下,获得最好的主观编码质量。DCT的另一个重要优点是:对于自回归(AR)输入过程,并且相邻样点有较高的相关性时,其性能非常接近KLT。不仅仅对于语音信号,其他许多信号都能够用AR模型来描述。DCT的第三个优点是:它可以借助FFT进行快速计算。这对具体应用,特别是当N比较大时,是至关重要的。第第3 3章章 音频信息处理技术音频信息处理技术 在语音编码系统中,为了适应语音信号的非平稳性,通常都要采用自适应处理技术。变换域编码将输入信号块分解成不同的频率分量,去除了大部分样点之间的相关性,因此,自适应技术主要使用了自适应比特分配和自适应量化。自适应比特分配用来

34、适应短时谱形状的变化,而自适应量化主要用来适应短时谱能量的变化。在更一般的概念中,变换的矩阵也可以自适应,由于实现上的困难,在实际应用中几乎都采用固定变换矩阵,因此,自适应变换域编码(ATC)一词通常指自适应比特分配和自适应量化,特别是指自适应比特分配。第第3 3章章 音频信息处理技术音频信息处理技术 由于分块处理,前向自适应更适合变换域编码,自适应信息需要以边信息的形式传送给接收端,以供解码用。由于边信息占用一部分速率,因此需要研究高效率的自适应方法,尽量少用一些比特来传送边信息,以省下更多的比特用来对系数进行量化。图3.3-8示出了自适应变换域编解码的框图,其中包含了边信息支路,它们用来提

35、供自适应量阶及自适应比特分配信息。第第3 3章章 音频信息处理技术音频信息处理技术 图3.3-8 自适应变换编解码原理框图 (a)编码;(b)解码 输入缓冲比特分配量阶尺寸谱插值编码输出信号输入变 换量化编码边信息提取合路分路(a)编码输入解 码反变换输出缓冲重建输出比特分配量阶尺寸谱插值(b)第第3 3章章 音频信息处理技术音频信息处理技术 3.3.5 矢量量化 矢量量化VQ(Vector Quantization)是一种有损的编码方案,其主要思想是将输入的语音信号按一定方式分组,把这些分组数据看成一个矢量,对它进行量化。这就区别于直接对一个个数据作量化的标量量化方法。矢量量化编码及解码的原

36、理框图如图3.3-9所示。第第3 3章章 音频信息处理技术音频信息处理技术 图3.3-9 矢量量化编码及解码原理框图 信 号 序列 输 入构 成矢 量传 送下 标矢 量输 出接 收下 标搜 索矢 量码 本查 表矢 量码 本第第3 3章章 音频信息处理技术音频信息处理技术 假定将语音数据分组,每组有 k个数据。这样,一组就是一个k 维的矢量。把每一个组形成的矢量看成一个元素,又叫码字,那么,语音所分成的组就形成了各自的码字。这些码字排列起来,就构成了一个表,人们将此表叫做码本或码书。形象一点说,码书就类似于汉字的电报号码本,电报号码本里面是复杂的汉字,而在这里是一组原始的语音数据;电报号码本里每

37、个汉字旁边标有只用4位阿拉伯数字表示的号码,而在矢量量化方法里就是每组数据所对应的下标。第第3 3章章 音频信息处理技术音频信息处理技术 系统工作原理为:先将待编码的序列划分成一个个等长的段,每段含有若干个样点,这一段段样点就构成一个个矢量。编码对象可以是直接的语音输入序列,也可以是参数编码中语音模型对应的激励序列,或者是准平稳期内的语音经线性预测分析产生的一组自回归(AR)模型参数,等等。每一个矢量与已预先训练(是指某种算法计算)好的一个矢量码本(Codebook)中的每一个码字(Codeword,它与输入矢量一样,也是同维数的矢量)按某种失真准则进行比较,求出误差。第第3 3章章 音频信息

38、处理技术音频信息处理技术 码本中每一个码字都与输入矢量产生一个相应的误差,其中误差最小的矢量可用来代替输入矢量,即输入的最佳量化值。只需对码本中每一个码字的位置进行编码即可,即传送的不是码本中对应的码字本身(这对数据压缩毫无意义),而是它的下标。传送下标所用的数据量比传送原始的 k维数据要小得多,从而达到了数据压缩的目的。在接收端,也有同样的码本,当接收到对方传来的矢量下标时,即可根据此下标,在码本中查出相应的码字作为重建的语音数据。第第3 3章章 音频信息处理技术音频信息处理技术 如果码本的长度为N,则下标可用lbN二进制位来表示,而 k 个数据构成一个码字。所以,矢量量化编码的比特压缩量可

39、达到1/k lbN。矢量量化编码的关键技术一方面在于设计一个优良的码本,即矢量码本的构造问题。一般可通过反复迭代、不断修正的方法完成,目前最常用的是一种称为LBG的算法。这个算法是三位学者Y.Linde、A.Buzo和R.M.Gray共同提出的,故以它们的名字命名。采用LGB算法的步骤为:第第3 3章章 音频信息处理技术音频信息处理技术 (1)采集用于构造码本的训练数据。数据越多,采集对象越广泛,则训练出的码本越好。当然,数据越多,训练时间越长,因而必须在性能和训练代价之间寻求一个折衷。(2)构造初始码本。它有许多方法,例如,常用的随机码本、白噪声码本等。(3)训练数据对已有的码本进行矢量量化

40、编码,对每个码字形成数据聚类。(4)根据量化得到的聚类结果修正码字,即寻找每一类的新的代表性码字。第第3 3章章 音频信息处理技术音频信息处理技术 (5)判断(3)中量化编码误差是否小于规定数值,或者迭代次数是否超过规定值,若是,训练结束。否则转(3)继续。矢量量化编码的关键技术的另一个方面是量化编码准则问题,这与被编码对象特性有关。举例来说,若直接对输入语音波形进行矢量量化,则多用最小均方误差MSE(Mean-Squared-Error)准则:21)(),(ijjmjiyjsYSd(3.3-7)第第3 3章章 音频信息处理技术音频信息处理技术 其中,Yi是码本中第i个码字,每个码字有m维;w

41、j 是权函数;d是误差值。若矢量量化编码的对象是语音模型参数,则MSE(最小均方误差)准则就不合适了。因为模型参数反映的是语音的频谱特性,参数量化误差最小,代表语音频谱量化误差最小(除非参数间无误差),所以在这种场合,将多数由参数来表示的语音频谱失真作为误差准则。最常用的是deYeXeYeXYXdjijjiji1)()()()(ln21),(22(3.3-8)第第3 3章章 音频信息处理技术音频信息处理技术 图3.3-10 二进码树编码原理 第m级第三级第二级第一级第j个第第3 3章章 音频信息处理技术音频信息处理技术 图3.3-10中,一共有 m 级,第一级有2 1个码字,第二级有2 2个码

42、字,第 m级有2 m 个码字。输入矢量首先与第一级两个码字比较,如果图中上面一个的码字量化误差小,则再与它对应的第二级的两个码字(如图中虚线箭头所指)进行比较,依次类推,每次仅与某级的两个码字进行比较,一直到最后一级的第 j个,即为量化结果,量化的路径如图3.3-10中 的实线所示。这样,搜索的过程只与2m个码字进行比较,而不是普通矢量量化与2 m 个码字的比较,计算量大大减少。当然,码本的构造也是先构造一个码字,再构造两个,两个再构造四个,依此类推。第第3 3章章 音频信息处理技术音频信息处理技术 G.723.1和G.729标准中采用的代数结构码本,是使其码本呈现某种预先规定的排列特征(等间

43、隔的脉冲串、不同码矢量可以通过别的码字的移位得到),另外,每个码字中非零元素很少,可以大大降低求解合成语音时的计算量。矢量量化编码不一定是对语音样值进行处理,也可以对语音的其他特征进行编码,比如G.723.1标准中,合成滤波器系数转化为线谱对(Linear Spectrum Pair,LSP)系数后采用的就是矢量编码法。因此,矢量量化的用途是很广的。第第3 3章章 音频信息处理技术音频信息处理技术 3.3.6 线性预测编码 前面我们已介绍过线性预测编码(LPC)方法为参数编码方式。参数编码的基础是人类语音的生成模型,通过这个模型,提取语音的特征参数,然后对特征参数进行编码传输。在式(3.3-4

44、)和式(3.3-5)中分别给出了预测方程和预测误差。在DPCM中只用低阶进行预测,有时甚至取 ai=1,即只用前面一个采样来代替(预测)当前样值。而在LPC中,对输入的音频信号进行分帧(例如,每10 ms为一帧)提取参数。发送这些参数以达到数据压缩的目的。在接收端,利用所得的参数进行合成,重建语音。第第3 3章章 音频信息处理技术音频信息处理技术 在提取的参数中,最重要的是预测系数 ai。求取线性预测系数的依据就是式(3.3-5)的 e20为最小。也就是说,要提取在一帧数据中使e20为最小的ai。在实际应用中,通常要取10阶或12阶预测系数,这就需要求出各ai下的e20的最小值。通过解联立方程

45、的方法求出ai 来。实际上求10阶(或12阶)预测系数需要计算本帧语音信号的协方差或自相关,使求取的预测值尽可能地接近实际值。除了预测系数外,其他要提取的参数有音调、清音/浊音以及信号的幅度。第第3 3章章 音频信息处理技术音频信息处理技术 LPC系统将预测系数及其他有关参数进行编码并传送。在接收端,利用收到的线性预测系数以及其他参数,使用语音合成器重建原始语音。一个典型的例子是美国使用的LPC-10算法,其编码原理框图如图3.3-11所示。LPC-10与其他LPC的区别在于它采用了平均幅值差分函数(AMDF)间隔提取方法和采用协方差计算短时预测器系数,而不是用自相关方法。在此系统中,语音的采

46、样率为8 kHz,样本编码字长为12位。以180个采样值为一帧。LPC-10对每帧信号采样值进行处理,分别计算出10阶预测系数、音调、幅度及清音或浊音。第第3 3章章 音频信息处理技术音频信息处理技术 图3.3-11 LPC-10算法的编码原理框图 预增强反射系数(RC)语音信号编码输出V/UV间隔RMSRCs半间隔同步调相预测器分析缓冲区矩阵加载RMS测试矩阵求逆双帧缓冲区参数编码间隔和声音校正声音/无声音(V/UV)检测器AMDF间隔提 取并/串变换和同步生成器低通滤波间隔分析缓冲区第第3 3章章 音频信息处理技术音频信息处理技术 利用迭代法计算协方差矩阵,求得10阶预测系数。前4个系数用

47、5 bit表示;第5到第8个系数用4 bit表示;第9个系数为3 bit;第10个系数为2 bit。这样,10个线性预测系数共用41 bit来表示。用7 bit传送音调和清音/浊音,再用5 bit表示幅度,另外还要加1位同步位。这样一来,原来一帧(180个采样值)数据可用54 bit来传送,从而使系统的传送率为8000/180542.4 kb/s。第第3 3章章 音频信息处理技术音频信息处理技术 3.4 语音压缩编码标准语音压缩编码标准 经过近二三十年的努力,人们已在语音信号压缩编码方面取得了很大进展,开发出了许多压缩方法,其中的一些已成为了国际或地区的编码标准,表3.4-1所示是按波形编码、

48、参数编码和混合编码三类编码方法分类的具有代表性的标准。第第3 3章章 音频信息处理技术音频信息处理技术 表3.4-1 数字音频编码算法、标准简表 第第3 3章章 音频信息处理技术音频信息处理技术 3.4.1 常见音频编码标准 1 G.711标准 G.711标准是1972年制定的电话质量的PCM语音压缩标准,采样频率为8 kHz,每个样值采用8位二进制编码,因此其速率为64 kb/s。推荐使用A律或律的非线性压扩技术,将13位的PCM按A律,14位的PCM按律转换成8位编码,其质量相当于12比特线形量化。标准规定选用不同解码规则的国家之间,数据通路传送按A律解码的信号。使用律的国家应进行转换,标

49、准给出了A编码的对应表。标准还规定,在物理介质上连续传输时,符号位在前,最低有效位在后。本标准广泛用于数字语音编码。第第3 3章章 音频信息处理技术音频信息处理技术 2 G.721标准 G.721标准是ITU-T于1984年制定的,主要目的是用于64 kb/s的A律和律PCM与32 kb/s的ADPCM之间的转换。它基于ADPCM技术,采样频率为8 kHz,每个样值与预测值的差值用4位编码,其编码速率为32 kb/s,ADPCM是一种对中等质量音频信号进行高效编码的有效算法之一,它不仅适用于语音压缩,而且也适用于调幅广播质量的音频压缩和CD-I音频压缩等应用。第第3 3章章 音频信息处理技术音

50、频信息处理技术 3 G.722标准 G.722标准旨在提供比G.711或G.721标准压缩技术更高的音质,G.722编码采用了高低两个子带内的ADPCM方案,即使用子带ADPCM(SB-ADPCM)编码方案。高低子带的划分以4 kHz为界,然后再对每个子带内采用类似G.721标准的ADPCM编码。它是1988年ITU-T为调幅广播质量的音频信号压缩制定的标准。G.722能将224 kb/s的调幅广播质量的音频信号压缩为64 kb/s,主要用于视听多媒体和会议电视等。G.722压缩信号的带宽范围为50 Hz7 kHz,比特率为48 kb/s、56 kb/s、64 kb/s。在标准模式下,采样频率

51、为16 kHz,幅度深度为14 bit。第第3 3章章 音频信息处理技术音频信息处理技术 4 G.728标准 G.728标准是一个追求低比特率的标准,其速率为16 kb/s,其质量与32 kb/s的 G.721 标准相当。它使用了LD-CELP(低延时码激励线性预测)算法。该算法考虑了人耳的听觉特性,具有以块为单位的后向自适应高阶预测、后向自适应型增益量化、以矢量为单位的激励信号量化等特点。语音输入为5个取样值,附加上激励信号的波形与增益表达信息10比特,编码时延在2 ms以内。第第3 3章章 音频信息处理技术音频信息处理技术 这一点与每一帧取160个样值,附加有除激励信号和波形与增益表达信息

52、外还包括线性预测系数、音调预测系数、音调增益辅助信息等信息,这些信息的基本CELP结构不同。另外,G.721方案是对每个取样值进行预测并自适应量化,而本方案则是对所有取样值以矢量为单位处理,并且应用了线性预测和增益自适应的最新理论与成果。第第3 3章章 音频信息处理技术音频信息处理技术 编码时将事先准备好的激励矢量的所有组合合成语音,然后将其结果与被编码的输入信号相比较,选出听觉加权后距离最小的码元作为信息传递。而合成器则将发送端编码传送所制定的激励矢量、3比特增益码和自身合成过的语音波形一起合成为语音。ITU-T G.728标准的LD-CELP编码原理框图如图3.4-1所示。第第3 3章章

53、音频信息处理技术音频信息处理技术 图3.4-1 G.728标准的LD-CELP编码原理框图 增益输入语音信 道编 码激 励VQ码本后向增益自适应矢量缓存50阶LPC预测器后向LPC分析感觉加权滤波器均方误差最小化第第3 3章章 音频信息处理技术音频信息处理技术 G.728是低速率(56128 kb/s)ISDN可视电话的推荐语音编码器,由于它具有反向自适应特性,可实现低时延,被认为复杂度较高。由于自适应反向滤波器,因而G.728具有帧或包丢失隐藏措施,对随机比特差错有相当强的承受力,超出任何其他语音编码器。并且,一个码字中的全部10个比特对比特差错的敏感度基本相同。第第3 3章章 音频信息处理

54、技术音频信息处理技术 5 G.729标准 G.729标准是ITU-T为低码率应用设计而制定的语音压缩标准,其码率为8 kb/s,算法相对比较复杂,采用码激励线性预测(CELP,Code Excitation Linear Prediction)技术,同时为了提高合成语音质量,采取了一些措施,具体的算法要比CELP复杂一些,通常称为共轭结构代数码激励线性预测(CS-ACELP,Conjugate Structure Algebraic Code Excited Linear Prediction)。G.729标准语音编码系统的原理框图如图 3.4-2所示。第第3 3章章 音频信息处理技术音频信息

55、处理技术 图3.4-2 G.729标准语音编码系统的原理框图 预处理固定码本输入语音固定码本增益自适应码本增益LPC信息LPC信息LPC信息传输比特流自适应码本线性预测分析量化和内插合 成滤波器感觉加权滤波基音分析固定码本搜索增益量化参数编码第第3 3章章 音频信息处理技术音频信息处理技术 G.729标准的编码过程如下:(1)预处理。它可对输入信号进行高通滤波和按一定比例缩小,以防溢出。(2)对10 ms帧长语音段采用Levinson-Durbin算法进行LPC分析(阶数10阶),并将LP系数转换成线谱对LSP参数,用VQ技术量化编码。第第3 3章章 音频信息处理技术音频信息处理技术 (3)将

56、10 ms帧分成两个5 ms的子帧,分别求子帧语音模型对应的激励信号。(4)第二子帧的信号,合成滤波器系数取自第二步运算的结果,而第一子帧合成滤波器系数是通过第二子帧系数与前一帧系数内插得到的(这样,第一子帧合成滤波器系数不必传输了)。第第3 3章章 音频信息处理技术音频信息处理技术 (5)开环基音估计。即根据短时预测产生的预测误差,直接进行估计。(6)进行自适应码书搜索,得到语音中具有准周期特性的激励。根据第(5)步的结果,搜索范围可以很小。G.729标准采取了一些措施,使得基音周期还可以取分数值(1/3样值精度),提高了合成语音质量。第第3 3章章 音频信息处理技术音频信息处理技术 (7)

57、具有代数结构的固定码书搜索,从而得到语音模型的随机激励信号。(8)两个码书的增益(固定码本增益和自适应码本增益)采用具有共轭结构的两级码书进行矢量量化。第第3 3章章 音频信息处理技术音频信息处理技术 表3.4-2 8 kb/s CS-ACELP算法比特分配方案 第第3 3章章 音频信息处理技术音频信息处理技术 6 G.723.1标准 ITU-T颁布的语音压缩标准中码率最低的G.723.1标准主要是用于各种网络环境中的多媒体通信的。它的编码的流程图如图3.4-3所示。尽管图3.4-3中流程看起来很复杂,但它仍是基于分析合成(A/S)编码原理的。它与G.729标准的主要不同在于:第第3 3章章

58、音频信息处理技术音频信息处理技术 图3.4-3 G.723.1标准语音编码系统原理框图 存储状态更 新仿真解码信号输入分帧高通滤波线性预测分析共振峰感觉加权基音估计谐波噪声成形脉冲响应计 算线谱对量 化线谱对解 码线谱对内 插零输入响应求解基音预测激励编码基音解码激励解码第第3 3章章 音频信息处理技术音频信息处理技术 (1)分析帧长是30 ms,且分成4个子帧。每个子帧分别进行LPC分析,但仅仅最后一个子帧的LPC系数量化编码;基音估计每两个子帧进行一次。G.729中分析帧长为10 ms,分成两个子帧。所以,G.723.1编解码时延更大。(2)自适应码书和固定码书增益量化是分别进行的,前者采

59、用矢量量化,后者用标量量化,没有像G.729那样,两个增益都采用共轭结构码书。(3)激励有两种,分别为多脉冲激励(高速率时)和代数码激励(低速率时),而G.729只有代数码激励。所以G.723.1可以有多速率选择,能适应网络资源情况变化。第第3 3章章 音频信息处理技术音频信息处理技术 G.723.1具体编码过程的步骤如下:(1)输入为16 bit线性PCM信号。(2)编码器每次处理一帧240个语音样点,在抽样频率为8 kHz时等于30 ms时长。(3)每帧语音首先高通滤波,然后被分成4个等长子帧,每子帧含60个样值。第第3 3章章 音频信息处理技术音频信息处理技术 (4)每个子帧用Levin

60、son-Durbin法,求取10阶LPC滤波器系数。(5)4个子帧中最后一个子帧的LPC系数,经7.5 Hz带宽扩展,再转换成LSP系数。LSP系数用预测分裂矢量量化器进行量化编码。具体做法是,首先去除LSP系数中直流分量,再与前一帧解码的LSP矢量做预测,以减小动态范围。每个预测误差矢量(10维)分裂成3个维数为3、3、4的子矢量,分别用8 bit VQ码书进行量化编码。第第3 3章章 音频信息处理技术音频信息处理技术 (6)4个子帧的前三个子帧,其量化后LSP(从而LPC)系数的获得,是通过对前一帧的解码LSP系数,与第四帧解码LSP系数的线性内插得到。(7)各子帧得到解码LPC系数后,构

61、成合成滤波器。(8)各子帧用未量化的LPC系数,组成感觉加权滤波器,其传递函数为式(3.4-1),并对输入语音滤波得加权语音信号:iiipiiiipiZarZarZH211111)(3.4-1)第第3 3章章 音频信息处理技术音频信息处理技术 其中,p是共振峰模型阶数,ai是共振峰模型系数,r1为0.9,r2 为0.5。(9)对(8)的输出,每二个子帧做一次开环基音估计。所以一帧语音的240个样点产生二个基音估计值。(10)为改进语音各质量,对加权语音,进行一次谐波噪声形成滤波。(11)计算(7)中合成滤波器、(8)中感觉加权滤波器和(10)中谐波噪声滤波器三者的组合滤波器的脉冲响应。这是经过

62、感觉加权处理的合成滤波器。第第3 3章章 音频信息处理技术音频信息处理技术 (12)考虑到前后两帧间滤波器的影响,去除(11)中组合滤波器的零输入响应。(13)先进行CELP系统中自适应码书的量化,此处叫基音预测器,它是5阶的FIR系统。根据步骤(9)中求得的开环基音值,进行精细的闭环基音分析,求得的结果进行VQ编码。第第3 3章章 音频信息处理技术音频信息处理技术 (14)量化编码的最后一个对象是固定码书的编码。高速率采用多脉冲最大似然量化,与普通多脉冲方案不同的是,各脉冲幅度是一样的,符号可以不同,且所有脉冲位置,要么全在偶数号序列处,要么全在奇数号序列位置处,所以它与ACELP的码本有相

63、似之处。低速率时的固定码书的编码,即是ACELP,比之高速率方案,脉冲个数减少了,且位置限制更严,不同码字间存在简单代数移位关系。在所有编码工作完成后,进行各固定码书的编码的状态更新,为下一次编码作好准备。G.723.1标准算法中,两种码率情况下,比特分配如表3.4-3和3.4-4所示。第第3 3章章 音频信息处理技术音频信息处理技术 表3.4-3 G.723.1标准中6.3 kb/s速率编码算法的码字分配 第第3 3章章 音频信息处理技术音频信息处理技术 表3.4-4 G.723.1标准中5.3 kb/s速率编码算法的码字分配 第第3 3章章 音频信息处理技术音频信息处理技术 7 GSM音频

64、编码标准 GSM是欧洲电信管理局(European Telecommunication Administration)下属的一个工作小组CEPT-CCH-GSM(Group Special Mobile)的缩写。GSM是欧洲采用的移动电话的压缩标准,GSM所采用的RPE-LTP算法编码器原理框图如图3.4-4所示。它采用的算法为长时预测规则码激励(RPE-LTP,Regular-Pulse Excitation/Long Term Prediction),采样频率为8 kHz,运行速率为13 kb/s。第第3 3章章 音频信息处理技术音频信息处理技术 由于GSM在参数编码过程中采用了主观加权最

65、小均方误差准则逼近原始波形,具有原始波形的特点,因此有较好的自然度,并对噪声及多人讲话环境不敏感。同时它采用了长时预测、对数面积比(LAR)量化等一系列措施,使其具有较好的语音质量,其主观评分(MOS)达3.8。第第3 3章章 音频信息处理技术音频信息处理技术 图3.4-4 GSM所采用的RPE-LTP算法编码器原理框图 预加重语音信号编码输出感知加权滤波器NNcMcxMcxmaxcLARc预处理LPC分析短时分析预测长时预测RPE编码McNc直流失调补偿分帧自相关Schur迭代算法对数面积 比LAR编码器LPC分析滤波器反射系数插值LAR解码器LTP分析长时参数编码器长时参数解码器Z Nbc

66、RPE相位选择APCM量化器APCM逆量化器RPE相位恢复xMcxmaxcbcLARc第第3 3章章 音频信息处理技术音频信息处理技术 如图3.4-4所示,GSM的编码主要有下列五个步骤:(1)预处理:包括采样、去除直流分量以及利用滤波器对高频进行预加重等处理。(2)LPC分析:对160个样点(20 ms)一帧的信号采用Schur迭代算法计算出8个LPC反射系数,并转换成对数面积比(LAR)参数,进行编码。(3)短时分析预测:经过格形短时分析滤波器求短时预测系统的预测误差。第第3 3章章 音频信息处理技术音频信息处理技术 (4)长时预测:利用长时预测对第(3)步的误差信号进行去除多余度,并求出每个子帧的最佳长时预测延时样点数 N c和相应的长时预测系数bc,并量化编码。(5)RPE编码:对经过短时、长时预测后得到的线性预测误差信号进行加权滤波、规则脉冲序列提取和量化编码。GSM编码方案中各参数所用比特数分配情况如表3.4-5所示,GSM编码方案的语音帧长为20 ms,每帧为260 bit,所以总的编码速率为13 kb/s。第第3 3章章 音频信息处理技术音频信息处理技术 表3.4-5

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!