基于内容的音频分割

上传人:无*** 文档编号:41547966 上传时间:2021-11-21 格式:DOC 页数:9 大小:246.50KB
收藏 版权申诉 举报 下载
基于内容的音频分割_第1页
第1页 / 共9页
基于内容的音频分割_第2页
第2页 / 共9页
基于内容的音频分割_第3页
第3页 / 共9页
资源描述:

《基于内容的音频分割》由会员分享,可在线阅读,更多相关《基于内容的音频分割(9页珍藏版)》请在装配图网上搜索。

1、精品论文推荐基于内容的音频分割赵 敏 北京邮电大学信息与通信工程学院,北京(100876) E-mail: zhaominmin摘要:音频分割就是要找出音频流中的不同种类信号的端点,进行分割,也称为端点检测。随着数字化技术和网络技术的发展,多媒体信息检索逐渐成为研究热点。基于内容的音频分 析和检索也随着无线宽带网络的发展,成为下一代网络中很有前景的应用领域,音频分割是该领域中核心技术之一。音频信号帧与帧之间的特征参数的差异可以作为划分的依据。特征参数有时域和变换域 之分,时域参数适用于信噪比较高的场合,变换域参数比较适合现在商用上实时的需求,因此得到了更多的应用。目前常见的分割算法分为:基于帧

2、间差值、基于特征阈值、基于规则 等,这些算法各有优缺点,但一般存在缺乏灵活性或者需要训练等不足。本文实现了一种基于 MFCC 系数和矩阵运算的音频分割算法。介绍了信号的分帧处理、MFCC 系数的提取,详细讨论了一种矩阵分割算法,从而得出信号的端点,并在 VC+环境 下进行分析和代码实现,结果表明了该算法的可行性。关键词:音频分割;端点检测;MFCC;峰值选取中图分类号:TN919.811. 引言语音端点检测就是检测语音信号的起点和终点,因此也叫起止点识别。它是语音处理 技术中的一个重要方面,在连续音频信号流中,当一类音频信号转换到另外一类音频信号 时,这两类音频信号在某些音频特征上会发生明显突

3、变。音频分割就是要利用连续音频信 号流在发生转变时,听觉特征之间存在差异的现象,把变化出现的地方作为分割点,将音 频流切分开,从而将连续音频信号分割成长短不一的音频例子,再进行后续处理。换言之, 音频分割就是要找出语音信号中的开始和结束,即端点检测问题,一般的信号都存在于一 定的背景声,因此端点检测是语音识别、音频检索等运用中的必要的预处理过程,也是语 音处理技术中的一个重要方面,其目标是要在一段输入信号中将语音信号同其它信号(如背 景噪声)分离开来。在语音识别中,一个关键问题就是如何将语音信号精确地检测出来,为 获得准确的识别提供前提1。由于传统的基于文本的信息查询技术已不能满足用户对多媒体

4、信息的需求,基于内容 的检索技术已成为多媒体研究的热点之一,而基于内容的音频信号的分割便成为音频信号 各种应用的基础。这给未来的多媒体信息检索等新应用提供了无尽的方便,有广阔的应用 前景。目前国内外从事这方面研究的机构和公司主要包括:MIT、CMU、McGill、Audio Engineering Society、International Computer Music Association、微软亚洲研究院、IBM、清 华大学、浙江大学、北京邮电大学、NUANCE 公司等。现在已经有不少端点检测方法,大多数算法都是基于能量、短时过零率或 LPC,但是 对于含噪声的音频信号进行端点的检测,结果

5、发现这些方法都已失去原来效果,均不能进行 正确地判定和检测噪声环境下语音端点。尤其是低信噪比和被宽带噪声污染过的音频信号。 相反采用声学参数的端点检测算法虽然有比较高的准确率,但是计算复杂度相当高,并不太 适合实时系统。- 9 -2. 理论基础贯穿于音频信号分析全过程的时“短时分析技术”,因为音频信号从整体来看其特性及 表征其本质特征的参数均是随时间而变化的,所以它是一个非平稳过程,不能用处理平稳 信号的数字信号处理技术对其进行分析处理。但是,从另一方面来看,虽然音频信号具有 时变特性,但是在一个短时间范围内(一般认为在 1030ms 的短时间内),其特性基本保持 不变即相对稳定,因而可以将其

6、看作是一个准稳态过程,即音频信号具有短时平稳性。所 以任何音频信号的分析和处理必须是建立在“短时”的基础上,即进行“短时分析”,将音频 信号分为一段一段来分析其特征参数,其中每一段称为“一帧”,帧长一般取为 1030ms。 这样,对于整体的音频信号来讲,分析出的是由每一帧特征参数组成的特征参数时间序列 12。根据所分析出参数的性质的不同,可将音频信号分析分为时域分析、频域分析、倒频 域分析等;根据分析的方法的不同又可将分析方法分为模型分析方法和非模型分析方法两 种。时域分析方法具有简单、物理意义明确等优点,但由于音频信号最重要的感知特性反 映在功率谱中,而相位变化只起着很小的作用,所以相对于时

7、域分析来说频域分析更为重 要。模型分析方法是依据信号产生的数学模型,来分析和提取表征这些模型的特征参数, 如共振峰分析及声管分析(即线性预测模型)法;而不进行模型化分析的其他方法都属于 非模型分析法,包括上面提到的时域分析法、频域分析法以及同态分析法(即倒频域分析 法)等。无论是分析怎样的参数以及采用什么分析方法,在按帧进行信号分析,提取参数之前, 有一些经常使用的、共同的短时分析技术必须先进行,如预加重,加窗和分帧等,这些也 是不可忽视的技术。2.1 音频信号的端点检测在语音处理中,一个关键的问题就是端点检测,即如何对输入信号进行判断,准确找 出语音段的起止点和终止点,将音频信号精确地检测出

8、来,简单的说就是从连续记录的音 频信号中分离出我们真正感兴趣的部分,为获得准确的识别和编码等处理提供基础。语音 信号的端点检测是数字语音信号处理的基础环节。有效的端点检测不仅能使处理时间减到最小,而且能排除无声段的干扰,从而使识别 系统具有良好的性能。端点检测是音频信号处理的前提和基础,端点检测的成功与否甚至 在某种程度上直接决定了整个识别系统的成败。但是由于音频信号的特殊性,使得在处理 方法上引入了一些全新的分析方法3。2.2 端点检测的一般方法多数端点检测过程是这样的4:1 音频信号分割成相邻的帧、预处理,采用短时分析方法;2 对于每一帧信号,选取合适的可以表征信号特征的参数;3 采用一种

9、判决准则,例如门限判定或模式识别,来检测不同种类的帧;4 对上述结果进行后处理,得到端点。 特征参数的选取是关键的一步,选取原则分为两类:基于信号特征和基于信号模型。基于信号特征是从具体信号出发,选取某一特征作为特征向量,意义明确,实现起来比较简单,运算量少,缺点是容易受信号的影响,应用环境有很大的局限。语音信号的很多参 数可以作为特征向量,时域参数主要包括信号的短时能量,短时过零率,相关系数;频域 特征主要有频谱,功率谱,MFCC,PLC。还有一种方法是在信号可以由一些随机模型描述 的前提下,对信号采用统计学的方法进行端点检测。这种系统可以根据已知的观察值,通 过近似方法或贝叶斯选择来定量推

10、断信号中的突变,这种推断有赖于模型和实际信号的差 别。2.2.1预处理 由于音频信号的频谱频率越高相应的成分越小,高频部分的频谱比低频部分难求,为此在预处理中进行预加重处理。预加重的目的是提升高频部分,使信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,以便于频谱分析或其他处理。预 加重一般利用提升高频特性的预加重数字滤波器来实现,一般是一阶的数字滤波器5:式中 的值接近于 1。H ( z) = 1 Z 1(式 2-1)进行预加重滤波处理后,接下来就要进行加窗分帧处理。一般每秒的帧数约为 33100 帧,视实际情况而定,分帧可以选择连续分段的方法,也可以采用交替分段的方

11、法。分帧使 用可移动的有限长度窗口进行加权的方法来实现的,这就是用一定的窗函数 w(n) 来乘s(n) ,从而形成加窗音频信号 Sw(n) = s(n) w(n) 。在音频信号处理中常用的是窗函数是矩形窗和汉明窗等:矩形窗(Rectangular Window)1,0 n N 1;w(n) = 汉明窗(Hamming Window)0, 其它。(式2-2)w(k ) = 0.54 0.46 cos(2k)N 1n = 0,1,2,., k 1,(式 2-3)窗函数 w(n) 的选择(形状和长度),对于短时分析参数的特性影响很大。为此应该选 取合适的窗口,使短时参数更好地反映音频信号的特性变化。

12、2.2.2 参数分析 经过与处理的音频信号,就要对其进行特征参数分析,其目的是抽取语音特征。特征参数选择的好坏直接影响到端点检测的结果和精度。语音信号的特征向量一般分为两类:第一类为时域特征向量,通常将帧语音信号的各个 时域采样值直接构成一个向量。第二类为变换域特征向量,即对一帧语音信号进行某种变换 后产生的特征向量。时域特征参数的优点在于计算简单,缺点是不能压缩维数且不适于表征幅度谱特性。变 换域特征向量的计算比较复杂,但能从不同的角度反映幅度谱的特征6。1)线性预测系数LPC: 在一个短时帧内,用有限个参数的数学模型来近似表示音频采样序列x(n),这些参数就成为x(n)的重要特征,叫做线性

13、预测系数。无论在音频压缩编码还是在音频信息检索方面均有极广的应用。2)LPC倒谱系数: 对于某个短时帧,其LPC倒谱系数提取过程如下: 首先用数字滤波器对音频帧所包含的每个采样点进行预加重处理; 对预加重处理后的音频帧内信号加窗口函数; 然后对它进行自相关分析,把这个结果加以P阶线性预测运算,得到长度为P的信号序列xp,就是音频帧的LPC派生倒谱系数。3)Mel倒谱系数MFCC: 是建立在傅立叶和倒谱分析的基础上的: 对短时音频帧中的每个采样点进行傅立叶变换,得到这个音频帧在每个频率上的能量大小;如果整个频率带被划分为n个子带,分别计算这n个子带上的总能量,就构成了这个短时 音频帧的n个MFC

14、C系数(也叫Mel系数)。如果对提取出来的Mel系数再计算其对应的倒谱系 数,就是Mel倒谱系数。MFCC在语音领域中得到广泛的应用,一般对每段数据取12个系数可以较好地表现每段 的特征,这也是本课题选取的特征参数,在第三部分作详细介绍。2.3各种方法的比较通常语音检测端点方法采用检测信号的短时能量或短时对数能量作为特征参数,并采 用门限判定来作为检测准则。在这些方法中,当测试信号帧的短时能量超过噪声能量门限 并持续一段时间,则第一次超过能量门限的点被判定为语音段的起始点;而当测试信号的 能量低于另一个噪声能量门限并持续一段时间,就可以测定语音段的终止。噪声能量门限 的估计对这种方法性能的影响

15、很大,在低噪声环境中,如 SNR 大于 20dB 时,这种方法具 有很好的性能。然而,实际的语音识别系统应用于不同的环境中,故而在低 SNR 环境下, 由于难于确定合适的门限值,这种方法通常会舍弃一些低能量的信号,而且难以平衡噪声。 在一些算法中,其它一些时域参数,如过零率,也被采用以改进端点检测,但这些算法在 高噪声环境下仍不具有较高的性能7。倒谱能很好的表示信号的特征,因此在大多数语音识别系统中选择倒谱系数作为输入 特征矢量。在噪声环境下,短时到谱系数作为端点检测函数具有很好的性能。倒谱距离测 量法步骤类似于基于能量的端点检测,但是将倒谱距离代替短时能量来作为门限。事实上, 当信号存在严重

16、的谱失真时会给端点检测带来困难,难以选择合适的门限。另外,当存在 非平稳噪声时,例如开关们的声音,倒谱距离很小以至于难以区分处理语音信号与非平稳 噪声。为克服这些缺点,常采用模式分类进行端点检测7。3. 基于MFCC系数的音频分割3.1算法描述不同的方法的区别主要是采用的特征参数种类不同,和对结果的处理方法上存在差异, 根据一般步骤,考虑到时域特征对信号特征描述不足,且计算量大,各方面的因素,决定 提取信号的美尔倒谱系数,采取的基本思路是依据 beat spectrum 而做出的。beat spectrum 是一种近年出现的自动分割音乐或语音的方法,这种方法实际上是构造了一个相关函数来作为分割

17、的依据,有旋律的音乐或重复音乐会在重复点有 beat spectrum 的峰值,也就是说在特殊点相对强度最大,于是就可以将这类点作为分割点分割不同类型的乐曲,和以前的 节拍分析方法不同 beat spectrum8并不依赖于某一具体特征,如能量或频率,这样使得这种 方法对于任何一种流派的音乐都适用,流程如图 3-1 所示:1)信号进行预处理,预加重,分段分帧;2)对每一帧提取特征参数,经过各种特征参数性能的比较后,决定提取每一帧的 MFCC系数作为特征参数Vi ,V j ;3)对每一帧的参数作处理,求出任意两帧第 i 帧第 j 帧间的欧式距离 D(也是相关系 数),定义Dc (i, j) =V

18、i V j(式 3-1)Vi V j这样可使那些能量很小的即使是静音的帧也可能得到较大的相关系数,这样所有的Dc (i, j) 可以组成一个矩阵 S;4)定义B(l) = S (k , k + l)k R(式 3-2)B(0) 就是矩阵 S 主对角线上各元素的和,其他值 B(l ) 就是副对角线上各元素的和;5)建一个坐标系,横轴为时间轴,纵轴为 B(i) ,则 B(i) 极大值的点对应在时间轴上 的就是端点即分割点。即对应的 i 帧即为分割点。图 3-1端点检测基本流程图3.2MFCC系数介绍提取合适的参数描述信号特征,并为进一步的分析做好准备,本方法采用 MFCC 系数 作为特征参数9。由

19、于语音信号在时域上的变化快速而不稳定,所以通常都将它转换到频域上来观察,此时 它的频谱会随着时间作缓慢的变化。MFCC 系数即为 Mel 倒谱系数,它是将普通频率倒谱 分析转换为 Mel 频率尺度,使其更好的符合人耳的听觉特性,Mel 频率与实际频率的具体关 系可以如下表示:Mel( f ) = 2595 lg(1 + f / 700)(式 3-5)具体计算步骤如下:1)将实际频率尺度转换为 Mel 频率尺度;2)通常将加窗后的帧经过快速傅立叶变换(FFT) ,求出每帧的频谱参数。再将每帧的频 谱参数通过一组 N 个(N 一般为 2030 个) 三角形带通滤波器所组成的梅尔频率滤波器,将 每个

20、频带的输出取对数;3)再将此 N 个参数做对数运算,进行离散余弦变换(DCT)即得到 MFCC。4. 实验结果及分析图 3-2Mel 倒频谱特征参数提取流程图试验中主要对 wav 文件进行分析,主要选取了两个无人声版的波形文件,对其进行分析,检测出其中各个节拍中的端点。两个文件大小均为几兆。WAV 是 MicrosoftWindows 本身提供的音频格式,通常我们使用 WAV 格式都是用来 保存一些没有压缩的音频,因为没有采用压缩技术,WAV 文件中声音的采样数据很容易被 读出来,便于做其它处理。一个WAV文件至少包括三个块:RIFF块,FMT块和DATA块。FMT块包含 WAVEFORMAT

21、结构所需的信息,即波形数据的采样频率、声道数目、每个样本存储数据 长度;DATA块是文件最大的部分,它包含所有WAVE波形数据,它的末尾就是RIFF块的末 尾。因此可以直接从文件中读取所需数据,如数据长度,波形数据等,直接进行后续处理9。程序用 C 编写,在主函数中,还有如初始化,分段,分帧上的一些处理。 帧是进行信号处理和分析的基本单位,一般在 ms 级别,处理的简单波形文件一般在 1-2分钟左右,在进行矩阵分析算法时运算量太大,不易实现。在改进时,把若干帧作为一段进 行分析。因为在一定短时时间内音频信号具有相关性,相隔时间较长的帧之间相关性比较小, 从实际意义上说,只需要完成较短时间段内的

22、相关性计算,确定出端点即可。这样既可减小 运算量,又可达到较高的精度要求。段内帧数太多就没有分段的必要了,太少了结果就没有 什么意义了,程序里为 100 帧一段,即 2 秒为一段。在实时应用中不妨适当增加段内的帧数。对其文件头分析,结果如下:图 4-1 读取文件头有关信息该结果显示了文件总长度,每秒钟采样率和音频采样位数,以及划分的段数:截取 MFCC 处理的一段 MFCC 系数:图 4-2 一段 MFCC 系数信息对 MFCC 系数的维数进行定义,取一般值 10,每一行数据是一帧的 MFCC 系数。 最后结果显示图 4-3,在这幅图中,我们截取了一次峰峰值选取的结果,输出一段内的端点对应的帧

23、数,并输出与之对应的 B(i):图 4-3 每一段的检测结果图 4-4 再处理后的每一段的检测结果由图中可以看出,每一段内(2S 内)有 15 个左右的端点,这对于后续的处理,如语音 识别,或音频分类来说会增大运算量,而这些对于实际运用是没有意义的,所以我们再一次 处理数据,以得到数量更少且更有意义的“端点”,可以采取 2 种方法10,1,设置一个门限 值,在门限以上的峰值才是确定的端点;2,再进行一次峰值选取。由图 4-3 看出,数据之 间比较接近,设置门限值比较复杂,因此对这些得到的端点值再进行一次峰峰值选取,得到 相对较少的端点,也是更准确意义上的“端点”,我们截取一部分再处理的图 4-

24、4。图 4-4 显示,由于每段采用的是对 100 帧也就是 2 秒钟数据,进行一次峰峰值比较分析 的结果这个端点数目相对较多,可以考虑设置一个门限值或者是再进行一次峰峰值比较,效 果应该更好,但是从实验结果中我们可以看到 B(i)的值都比较接近,门限值不好确定,故而 我又采用了再一次的峰峰值选取对实验结果进行改进。从最后的结果可以看出,每一段的端点数目约为 4 个左右,是可以接受的端点检测结果。5. 结束语音频信号端点检测是音频分析、音频合成和音频识别中的一个基础而重要环节。 在很长一段时间里, 音频信号端点检测算法主要是依据音频信号的时域特性。其采用的主要参数有短时能量、短时平均过零率等,即

25、通常说的基于能量的端点检测方法。这些算法在实验室环境下具有良好的性能,但在噪声环境下,则无法达到其应有的效果。 近年来,随着通信业的迅猛发展,在各行业对通信系统语音质量的客观评价以及语音识别方法等技术实用化的强烈需求下,又出现了很多的语音端点检测算法。它们主要是通过采 用各种新的特征参数,以提高算法的抗噪声性能。如基于1994 年由Junqua J - C 提出的TF 参 数的语音端点检测,还有诸如倒谱系数、短时频带方差、自相关相似距离、信息熵等也逐渐 的被应用到端点检测11。提高语音端点检测的精度关键是要提高在噪声环境下语音的端点检测能力,目前已有的各种方法均有其局限性,语音端点检测还有待于

26、进一步深入的研究课题。要做好这方面的工作,可以从两个方面入手12:(1) 进一步进行基础理论研究,寻找新的特征参数,能够将所有(或更多、更广泛类型) 的 音频信号信息与噪声信息很好地区分开来,这方面的工作具有相当的难度与挑战性,不过一 旦取得突破,其意义不可估量;(2) 各种现有方法的综合运用。如基于自相关相似距离的端点检测法,因为它对清音的检 测精确度不高,将它与能量法相结合(对清音检测精确度较高) 或许能够在一定程度上改善端 点的检测精度。参考文献1 赵力. 语音信号处理M. 机械工业出版社. 北京. 20032 姚天任. 数字信号处理M. 华中科技大学出版社. 武汉. 19993 杨行峻

27、,迟惠生等. 语音信号数字处理M. 电子工业出版社. 北京. 20014 Juan Pablo Bello, Laurent Daudet,Samer Abdallah. A Tutorial on Onset Detection in Music SignalsJ. IEEETRANSACTIONS ON SPEECH AND AUDIO PROCESSING.5 Junqua J C. Robustuess and Cooperative Multimodel Man machine Communication ApplicationsM. Proc.Second Venaco Works

28、hop and ESCA ETRW. 1991. 9.6 李宏松,苏健民,黄英来等. 基于声音信号的特征提取方法的研究J. 信息技术. 2006.017 杨胜跃, 周宴宇, 黄深喜. 语音信号端点检测方法与展望J. 信息技术. 2005.078 Jonathan Foote, Shingo Uchihashi: THE BEAT SPECTRUM, A NEW APPROACH TO RHYTHM ANALYSISJ.9 胡光锐,韦晓东. 基于倒谱特征的带噪语音端点检测J. 电子学报.2000.1010 Matthew Cooper and Jonathan Foote: UMMARIZING

29、 POPULAR MUSIC VIA STRUCTURAL SIMILARITY ANALYSISJ. 2003 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics October 19-22.11 杨胜跃, 周宴宇, 黄深喜. 语音信号端点检测方法与展望J. 信息技术. 2005.0712 朱爱红,李连. 基于内容的音频检索关键技术研究. 现代计算机J. 2003年11期Content Based Music Onset DetectionZhao MinSchool of Information

30、 Engineering and Telecommunications, Beijing University of Posts andTelecommunications, Beiijing(100876)AbstractSegmentation in audio signal, which is also called onset detection, means detecting onsets of signals of different kinds. Multimedia information search becomes the hotspot with development

31、s of digitaltechnic and networks. Audio analysis and search based on content will have a bright future in next generation networks, with the developments of wireness nets; and audio segmentation is one of the core technique.We can distinguish signal depending on characteristic parameters, time-domai

32、n and frequency-domain. Parameters in time-domain only apply with conditions with high SNR. Methodsbased on parameters in frequency-domain are more used in real-time application. We can devidemethods into some classes as follows: based on differences of frames, based on rules.We discuss a method bas

33、ed on MFCC parameter and matrix operation. The paper begins with the introduction of different parameters of audio signal, then we come to pre-processing and MFCC calculation, and finally we dictate the onset according to a method based on matrix analysis. We do a lot about theoretic introduction; most important, we analyses and implemented each module under VC+ environment. The experimental results showed its performance.Keywords:Audio Segmentation;Onset Detection;Mel Frequency Cepstrum Coefficient;Peak Picking

展开阅读全文
温馨提示:
1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!