基于内容的音乐检索技术研究定稿

上传人：沈*** 文档编号：141989873 上传时间：2022-08-24 格式：DOC 页数：35 大小：1.05MB

收藏版权申诉举报下载

第1页 / 共35页

第2页 / 共35页

第3页 / 共35页

下载文档到电脑，查找使用更方便

10 积分

下载资源

资源描述：

《基于内容的音乐检索技术研究定稿》由会员分享，可在线阅读，更多相关《基于内容的音乐检索技术研究定稿（35页珍藏版）》请在装配图网上搜索。

1、成绩：江西科技师范学院毕业设计（论文）题目(中文)：基于内容的音乐检索技术研究 (外文）： Research on Content-Based Music Retrieval Technology 系（院）：专业：学生姓名：学号：指导教师： 2011年5月6日33目录1.绪论11.1课题研究的目的和意义11.2 国内外研究状况21.3核心问题和关键技术32.基于内容的音乐检索基础42.1音乐乐理基础42.2 音乐信号的特征62.3 音乐旋律的表示方法92.4音乐信息检索123.MP3音乐格式分析和旋律特征抽取143.1 MP3的音乐格式分析及编解码算法143.2 旋律特征提

2、取224.单声部音乐检索264.1 类简谱264.2 单声部查询音乐的类简谱表示274.3检索和匹配过程274.4简单举例275.多声部音乐检索305.1 Markov模型和隐Markov模型简介305.2 和弦特征315.3 HMM和声模型326.总结33参考文献34基于内容的音乐检索技术研究摘要：音乐是一类重要的音频数据,传统的音乐检索都是基于关键词的检索,使用受限。随着互联网的快速发展及数字化设备的普及,基于内容的音乐检索研究得到广泛的关注。基于内容的音乐检索就是把音乐本身的内涵，如节奏、旋律、和弦、伴奏音型、音色等，作为查询条件，对一个由不同格式的音频媒体(如MIDI、MP3或其它格式

3、的波形音乐)所构成的音乐数据库实施查询检索以获取数据库中满足查询条件或包含相同或相似音乐片段的音乐资源。这些表征不同音乐内涵的查询条件可以通过哼唱或借助现有的乐谱输入工具输入到检索系统中以实施检索。本论文对基于内容的MP3音乐检索技术进行了研究，并实现了一个灵活的具有多种查询音乐输入方式的MP3音乐检索原型系统。关键词：音乐检索; 计算机音乐; MP3; 特征提取; 近似匹配1.绪论1.1课题研究的目的和意义音乐是一类重要的音频数据，传统的音乐检索都是基于关键词的检索，使用非常受限。随着多媒体和Internet的广泛应用和深入普及，多媒体数据的数量正在呈指数增长。音频数据作为多媒体数据的重要

4、组成部分，其信息量也在迅速膨胀。面对如此海量的音频数据，如何快速、准确地检索到所需的音频已成为音频检索领域的一个热点。传统的音频检索采用文本检索技术，它们使用基于标题或文件名的文本标注方式，允许用户通过音频名称等关键字进行检索。诸如我们生活中接触到的Google和baidu这样的搜索引擎。但是，基于文本标注的音频检索方式具有其固有的局限性：(1)对音频信号的文本描述具有不完整性和主观性；(2)音频信息的数量庞大并增长迅速，人工标注需要花费比较高的成本，并且根本无法完成对如此大规模音频数据的标注；(3)不能支持实时音频数据流的检索；(4)无法检索出与指定音频数据相同的信息等。为了解决上述问题，基

5、于内容的音乐检索技术应运而生。所谓基于内容的音频检索，是指通过音频特征分析，对不同音频数据赋以不同的语义，使具有相同语义的音频在听觉上保持相似。其中，基于内容的音乐检索是具有较高实用价值的一部分。基于内容的音乐检索是根据音乐的内容特征，如音乐的旋律、节奏等进行检索。目前的音乐检索方式大多是基于文本的，即根据歌名、演唱者、歌词等关键字进行检索。人们想查找到某首歌曲时，只有通过这首歌曲的这些文字性信息才能进行检索，如果忘记了这些文字性信息，就无法找到自己想要的歌曲，这显然不能满足人们的搜索需要。另外，基于文本描述的音乐检索还需要人们对大量的音乐文件进行标注，这种工作费时又费力，并且音乐CD层出不穷

6、，完成对如此大规模音乐的标注几乎是不可能的。最重要的是，音乐的旋律、节奏等重要特性无法用文本表达清楚。为了解决以上问题，就需要寻找其它的检索方式，使得用户可以方便、快捷地找到想要的音乐。假如我们能通过这样一种检索方式使得用户在不知道某首歌曲的名字或演唱者等文字信息，但是对这首歌的旋律和风格等非常熟悉的情况下，对着麦克风将他熟悉的旋律“ 哼”或“ 唱”出来，然后通过计算机就可以检索出与哼唱旋律类似的歌曲该有多好。这种新颖的检索方式称为哼唱检索。哼唱检索是一种基于内容的音乐检索方式，它通过用户哼唱进行检索，使得用户只需哼唱一个歌曲片段，系统便能根据用户哼唱的旋律在音乐数据库中搜索出与之相似的歌曲。

7、相对于传统的基于关键字形式的用户接口，哼唱检索给用户提供了更便捷、更自然、更人性化的检索方式，并且给用户带来更佳的搜索体验6。1.2 国内外研究状况相对于文本和图像检索，基于内容的音乐信息检索技术的研究起步较晚，成果也比较有限。但自上个世纪90年代以来，研究工作取得较大进展。在该研究领域中，比较重要的期刊和会议包括IEEE Transaction on Speech and Audio Proeessing,IEEE Transaetion on Multimedia,IEEE Transaction on signal Proeessing,IEEE Intemational Confer

8、ence on Acousties,Speech and Signal proeessing(ICASSP), Intemational symposium on Music Information Retrieval(IsMIR)等。基于内容的音乐信息检索最早可以追溯到上世纪60年代中期，美国康奈尔大学Cornell University的Micheal Kassler和他的同事1966,1970己着手开始研究，之后直到1995年，同一所大学的Ghias1995等人开发了第一个哼唱检索QBH系统，重新开启了这方面的研究工作。近些年，随着个人计算机和互联网的普及、数字音乐产业的快速发展及人们对

9、搜索技术的日益重视，基于内容的音乐检索得到了迅猛发展。2006年，COMMUNICA TIONS OF THE ACM杂志对音乐信息检索等相关内容进行了专题探讨BP 2006:RD,2006;AW,2006。在国外，包括Midomi( (http:/www.songtap 和TuneSpotting( 等基于内容的音乐搜索引擎已经推向实用。在国内，中科院、上海交通大学李扬等，2003、西安交通大学、浙江大学冯等，2004、西北大学赵，2005;郭，2006等院校开展了相关的研究工作。清华大学、中科院自动化所、台湾清华大学、上海交通大学、西安电子科技大学、北京师范大学、西北大学等多家单位也开展了

10、相关的研究工作，也取得了一定的进展。基于内容的音乐检索经过十多年的发展，虽然取得了不小的成就，但是，在应用方面，成果有限，研究的重心还只是停留在理论的层面上。目前，可供用户使用的哼唱检索系统很少，哼唱检索的应用仍停留在初始阶段。而另一方面，音乐产业发展迅猛，新的音乐不断大量涌现，音乐爱好群体的需求旺盛。虽然取得了很大的成就，但是在应用方面还不是很完善，可供用户使用的哼唱检索系统也不多。因此，哼唱检索还有广阔的发展前景，基于内容的音乐检索存在广阔的发展空间。1.3核心问题和关键技术从已有的研究可以总结出哼唱是输入的基于内容的音乐检索的核心问题和关键技术。旋律是乐曲相似性的决定性依据已经成为不争的

11、事实于是围绕着乐曲旋律的相似匹配，我们总结出哼唱检索的三个核心问题：旋律的表示形式：提取得到的特征值以怎样数据结构存储。旋律的特征提取：特征提取是指在输入音频经过基本信号处理后，如何从中量化和提取描述了旋律特征的参数值（比如音高、节奏）。旋律的匹配算法：如何评价和计算（数字化的）旋律之间的相似性。其中旋律的匹配算法处于主导和决定性的位置。围绕着如何解决这三个核心问题，已有的研究提出了多种不同的方案，每一种方案都涉及了一系列关键技术。其中有些技术相对更通用一些，比如语音信号处理，在所有的方案中都有出现，而另一些技术则针对性比较强，往往是某种方案所特有的。下面试对前人已经提出的各种方案和关

12、键技术作一小结。基于近似符号匹配的检索方案这大概是被研究和运用得最为广泛的一种方案，它基于旋律是由音符组成这一观点。一般先对输入语音作能量分析，提取出音符，再作基音检测，提取出每个音符的音高，从而将哼唱信号转换成一个音符序列。然后运用传统的近似符号匹配算法与音乐库中的已知旋律的音符序列逐一匹配，得到检索结果。基于音高曲线匹配的检索方案这种方案认为旋律是音高随时间的起伏。一般把输入语音作短时分帧后，对每一帧作基音提取，然后相连构成音高随时间的变化曲线，与音乐库中已知旋律的音高曲线比较，计算误差，得到检索结果。基于统计模型的检索方案该方案依据的是旋律频谱特征值在统计上的规律。对旋律信号作短时

13、分帧，从每帧的频谱提取特征向量，考察这些特征向量序列在统计上的规律。多采用Markov 统计模型。在检索前要对每首已知旋律分别训练建模，然后计算待测旋律在这些模型上的概率，挑选概率最大的作为检索结果15。2.基于内容的音乐检索基础音乐与人的听觉感知密切相关，它更多地表达了一种感情，是一种很难量化的情绪。传统的音乐检索使用歌名等关键字来进行，而基于内容的音乐检索则是根据音乐的内容特征，如音高、节奏等音乐特征进行检索。本章在研究音乐乐理相关知识、音乐信号特征以及音乐旋律表示方法的基础上，给出了哼唱检索的特征表示形式及基于内容哼唱检索的基本框架。2.1音乐乐理基础音是一种物理现象，是由发音体发出的

14、一系列频率、振幅各不相同的振动复合而成的。其中，整体振动所产生的音叫做基音，各个部分振动所产生的音叫做泛音。基音决定了音高。在自然界中，人的听觉能感受到的音很多，但并不是所有的音都可以作为音乐的材料。在音乐中使用的音是人们在长期的生活实践中为了表现人们的生活或思想感情而特意挑选出来的。一般只限于每秒振动27-4100次的范围内。这些音被组成一个固定的体系，用来表达音乐思想和塑造音乐形象。在音乐中使用的、有固定音高的音的总和，叫做乐音体系。乐音体系中的各音叫做音级。音级有基本音级和变化音级两种。其中，七个具有独立名称的音级叫做基本音级。乐音体系中的各音级都有各自的名称，叫做音名。七个基本音级的音

15、名用拉丁字母标记为：C、D、E、F、G、A、B。演唱时将它们唱成：do、re、mi、fa、sol、la、si，在简谱中记为1234567。如图2.l所示。升高或降低基本音级而得来的音，叫做变化音级8。图2.1 基本音级、音名及唱名乐音体系中的音，按照上行或下行次序排列起来，叫做音列。两个相邻的具有同样名称的音叫做八度。半音是音高的最小单位，将一个八度音分成十二等份每一份为半音，全音由两个半音组成。音程是指两个音级在音高上的相互关系，是两个音符之间相差几个自然音音名的数量单位，其度量单位是度。度数并没有显示两个音符之间的实际距离，实际距离是两个音符之间相差的半音个数。因此，度数相同的两个音符，其

16、实际距离未必相同。如do和fa之间的度数是四度，实际距离是5个半音；fa和si之间的度数也是四度，实际距离却是6个半音。音乐的基本要素是指构成音乐的各种元素，包括音高、音长、音量和音色。音高即声音的高低，它由发声体振动频率(次数)的高低(多少)所决定。发声体的振动频率越低(振动次数越少)，音调越低：发声体的振动频率越高(振动次数越多)，音调越高。例如，男性唱歌时声带振动频率较低，而女性唱歌时声带振动频率较高，因此，女性的音调比男性的音调高。音长即声音的长短，它由发声体振动延续时间的长短所决定。延续时间越短，音长越短；延续时间越长，音长也就越长。具有不同长短的音相互结合起来就产生了音乐的节拍、节

17、奏，从而构成了旋律的骨架。因此，音长在音乐中占有十分重要的位置。音量即声音的强弱，它由发声体振动幅度的大小所决定。一般来说，发声体振动的幅度越大，音量就越强：发声体振动的幅度越小，音量也就越弱。例如，在音乐中，音量的强弱会形成有规律的节奏、节拍重音，产生音乐的基本律动，不同的音乐风格就有不同的强弱规律。同样，音乐情感的表达也离不开音乐强弱的变化。音色即声音的色彩，它由发声体产生的泛音的多少和各个泛音的强弱所决定。主要是由发音体的发音方式、结构形状、泛音的多少及其材料性质等不同因素来决定的。例如，不同的乐器以同样响度演奏同一首曲子，人耳的感觉却是不一样的，其原因主要是因为乐器的音色不同。而每种乐

18、器都有自己独特的音色，就是因为它们之间的和弦不同。一个声音的基音和泛音共同组成了这个声音的和弦。旋律指经过艺术构思而形成的若干乐音的有组织、有节奏的和谐运动。它建立在一定的调式和节拍的基础上，按一定的音高、时长和音量构成的、具有逻辑因素的单声部进行。旋律的两个必不可少的基本要素是音高和节奏。它是音乐的灵魂和基础，音乐的思想感情都是通过旋律表现出来的。音乐的四个基本要素在音乐的表现中都是非常重要的，但音高和音长则具有更为重大的意义。以北京欢迎你这首歌为例，不管你用小声哼唱或是大声演唱，用人声演唱或者用乐器演奏，虽然音的强弱及音色都发生了变化，人们仍然能够很容易地辨认出这支旋律。但是，假如我们改变

19、这首歌的音高或音长的话，则音乐形象就会立即受到严重的破坏。可见，音高和音长对一段旋律来说是极其重要的。2.2 音乐信号的特征音乐信号的特征指的是寻找音乐信号的表达形式，提取能代表原始音乐信号的数据。常用的音乐信号特征大致可以分为三类：时域特征、频域特征和倒谱特征。2.2.1 音乐信号的时域特征音乐信号的时域特征是指通过对音乐信号的时域波形进行分析所提取出的时域参数。时域特征仅利用了音乐信号在时域上的信息，在提取时不需要进行特别的转换，并且具有实现起来比较简单、计算量小以及物理意义明确的优点。常见的时域特征包括短时能量、短时平均幅度、短时平均过零率、短时自相关函数和短时平均幅度差函数等。短时能

20、量和短时平均幅度音乐信号的短时能量分析给出了反映其能量随时间变化的一个合适的描述方法。对于信号x(m)，其短时能量的定义如下： (2.1)由于短时能量是对信号进行平方运算，因而人为地增加了高低信号之间的差距，在一些应用场合不太适用。为了解决这个问题，通常采用短时平均幅度来表示能量的变化，信号x(m)的短时平均幅度定义为： (2.2)短时能量和短时平均幅度可以有效地判断信号幅度的大小，并可用于有声、无声的判定。短时平均过零率短时平均过零率是指每帧内信号通过零值的次数。对于连续的音乐信号，可以通过计算其短时平均过零率来考察其时域波形通过时间轴的情况。对于离散的音乐信号，其短时平均过零率实质上就是

21、信号采样点符号变化的次数。信号x(m)的短时平均过零率定义为： (2.3)其中，表示经过加窗处理后的信号，窗函数的长度为N。短时能量和短时平均过零率结合起来可以用来判断音乐信号起止点的位置，即进行端点检测。在背景噪声较大的情况下，短时平均过零率比较准确；在背景噪声较小的情况下，使用短时能量可以获得较好的检测结果。另外，短时平均过零率可以在一定程度上反映音频信号的频谱性质，因此可以通过它来获得谱特性的一种粗略估计。2.2.2 音乐信号的频域特征音乐信号的频域特征是指先把音乐信号进行傅立叶变换，将原始信号转换到频域后，对频域内的数据进行分析所提取出的频域参数。短时傅立叶变换音乐信号的短时傅立叶

22、变换定义为： (2.4)其中，为窗函数。短时傅里叶变换实际上就是窗选音乐信号的标准傅里叶变换。它建立了信号从时域到频域的交换桥梁。线性预测分析(LPC) 对音乐信号进行线性预测分析的基本思想是：音乐信号的采样可以用过去若干个音乐信号采样的线性组合来逼近，通过使用线性预测到的采样在最小均方误差意义上逼近实际音乐信号采样，可以求取一组唯一的预测系数。该预测系数也即线性组合里使用的加权系数，通常被称为LPC(Linear Prediction Coding)。简而言之，即是用信号的前P个样点值来预测现在或未来的样点值： (2.5)预测误差为： (2.6)这样就可以通过在某个准则下使预测误差达到最

23、小值的方法来唯一的确定一组线性预测系数,称为预测阶数。2.2.3 音乐信号的倒谱特征音乐信号的倒谱特征是指对音乐信号进行倒谱分析所得到的倒谱参数。音乐信号典型的倒谱特征有线性预测倒谱系数、Mel频率倒谱系数等。线性预测倒谱系数(LPCC)LPCC倒谱系数可以由LPC系数按照递推公式直接推得，其递推过程如下：通过线性预测分析得到的合成滤波器的系统函数为，其冲激响应为。为求得冲激响应的倒谱,首先根据同态处理方法，有： (2.7) 设,将（2.7）式两边同时对z-1求导，即： (2.8)从而得到： (2.9)将(29)左右的常数项和z-1各次幂的系数分别相等，得到倒谱和之间的递推关系为： (2.1

24、0)按式(2.10)可直接从预测系数求得LPC倒谱。这个倒谱是根据线性预测模型得到的，因此被称为LPC倒谱。 Mel频率倒谱参数(MFCC)由于MFCC(Mel Frequency Cepstrum Coefficient)是将人耳的听觉感知特性和语音的产生机制相结合，因此目前大多数语音识别系统中都广泛使用了这种特征。它也同样可以应用于音频信息处理中。Mel频率可以用公式表达为：Mel frequency= (2.11)在实际应用中，MFCC倒谱系数计算过程如下：将原始音乐信号进行分帧、加窗处理，然后进行短时傅立叶变换得到其频谱；求出频谱平方，即能量谱，并用M个Mel带通滤波器进行滤波，然后将

25、每个滤波频带内的能量进行叠加，这时第k个滤波器的输出功率为；将每个滤波器的输出取对数，得到相应频带的对数功率谱；并进行反离散余弦变换，得到L(一般为1216左右)个MFCC系数，如下式所示： n=1,2,L (2.12)这种直接得到的MFCC特征为静态特征。对静态特征做一阶和二阶差分，可以得到相应的动态特征。2.3 音乐旋律的表示方法旋律是音乐的基础和灵魂。音乐的主要特征就是旋律。旋律的一个简单定义是单音调的连续的音阶序列。相同的旋律可以映射到不同的音阶上。比如，对于同一首歌，不管你用高音唱，还是低音唱，是用钢琴弹奏还是萨克丝演奏，人们都能很明显地听出是同一首歌曲。这主要是因为它们的旋律是相同

26、的。旋律最主要的信息是音高和音长，音高的变化反映了旋律的起伏，而音长则表达了旋律的节奏信息。在本课题中，用户的哼唱输入是以WAVE文件的形式保存下来的，因此，本文的目标就是从WAVE文件中提取相应的旋律特征，通过它们与音乐数据库中存储的歌曲的旋律特征进行检索匹配，从而找到最相似的歌曲。2.3.1 音乐旋律的表示方法要研究基于内容的音乐检索，就必须首先定义可以有效反映音乐旋律特征的表达方式，即定义一个合适的旋廓。旋律轮廓的表达有多种不同的方式，常见的有以下四种13：(1)绝对音高表示法旋律的绝对音高序列是一种最简单的旋律轮廓。绝对音高序列包含了旋律的准确音高，可以对音乐旋律进行完全精确的检索。绝

27、对音高序列尽管可以非常精确地检索出相似的歌曲，但也有明显的不足之处。一方面，这种表示方法要求检索者必须非常准确地把握旋律的音高信息，这对于大部分检索者来说是比较困难的。另一方面，在一些音乐旋律中存在大量的不确定性、即兴性因素。比如，对于一些民族音乐来说，它的音调是不固定的，不同的乐器、不同的演奏者在演奏时它的调号都可能会发生改变，尽管此时音乐的旋律是一样的，但由于其音调不同，所以对应的绝对音高序列就会不一样，显然这将导致检索失败。因此，绝对音高序列在实际中应用很少。(2)相对音高表示法相对音高序列是基于音乐的旋律轮廓出发的，没有绝对音高序列那样精准，但它可以有效地解决绝对音高序列旋律轮廓的不

28、足，在实际中应用非常广泛。通常采用如下的方式来建立相对音高序列：对乐曲中第一个音符之后的每一个音，使用字符来表示每个音符与前一个音符之间的相对音高关系：用D表示该音符的音调比前一个音符的音调低，用U表示该音符的音调比前一个音符的音调高，用S表示该音符的音调与前一个音符的音调相等，这样整个乐曲就可以转化为只包含D、U、S的字符序列。如对于北京欢迎你开头部分的旋律轮廓(如图2.2所示)可以表示为：UDDUDUSDDUUD。这种旋律轮廓表示法在很多音乐检索系统中都有所应用。 3 5 3 2 3 2 3 3 . 2 6 . 1 3 2 - 迎接另一个晨曦带来全新空气图2.2 北京欢

29、迎你第一句歌谱相对音高表示法的优点是允许用户不必记住每个音符的准确音高，只需记住音高的方向就可以进行检索，该方法虽然弥补了绝对音高的不足，但同时也使搜索变得不精确，对于大型数据库来说检索到的结果过多，不利于找到要搜索的目标。(3)音程表示法旋律的音程表示法是指对歌曲使用音程方向或者是使用具体的音程来表示音乐旋律。Downie等提出了三种对旋律分辨能力比较强的音程表示法，在这种表示方法中，上升用大写字母来表示，下降用小写字母来表示，重复的音符用小写字母“a”表示。第一种表示方法是用“b”、“c”、“d”来分别表示下降l、2、3个半音的音程，下降超过3个半音的音程用“d”来表示；用B、C、D分别表

30、示上升1、2、3个半音的音程，上升超过3个半音的音程用D来表示。第二种表示法是用B到H来分别表示上升1到7个半音的音程，上升超过7个半音的音程用H来表示；用从“b”到“h”分别表示下降1到7个半音的音程，下降超过7个半音的音程用“h”来表示。第三种表示法是直接使用音程的准确数值来表示音乐的旋律。例如，对于图3所示的音乐旋律，使用第三种表示法可以表示为：3-3-22-220-2-433-2。音程表示法在一些哼唱检索系统中也有应用38。音程表示法要求用户在提交查询时必须要记住部分或全部旋律的准确音程，这无疑增加了用户的负担。另外，与绝对音高序列、相对音高序列一样，这三种表示方法只能反映音符的音高特

31、征，而忽略了音符的节奏特征。对于一段旋律来说，音高和音长都是非常重要的，如果忽略了音长信息，将不能较好地描述一段旋律。例如，对于同样的一个音高序列，有音长信息和没有音长信息，演奏时将大相径庭。2.3.2 哼唱检索的特征表示对于哼唱来说，同一首音乐的节奏可快可慢，音长序列可长可短。节奏快，音长变短；节奏慢，音长变长，但所有音符的音长序列都是以同样比例变化的。即每个人在哼唱时，音长序列可能不同，但音长序列之间的比例一般是不变的。也就是说歌曲旋律的节奏在时间上具有可伸缩的性质。同样，一首歌曲可以用低8度哼唱，也可以用高8度哼唱，或者任意起调，而听歌者总能够听出是同一首歌曲。即每个人在哼唱时，音高序列

32、可能不同，但相邻音高序列之间的差值一般是不变的。也就是说歌曲旋律在音高上具有可平移的性质。对于一个较好的哼唱检索系统来说，必须解决这两个问题才能具有较强的适应能力。因此，为了解决这两个问题，本文给出如下的解决方案：(1)对提取的歌曲音高特征序列，采用相邻音高之间的半音差值作为音高特征。即对于一个长度为n的音高特征序列P=P1，P2，Pn，定义它的音高半音差值特征序列为： P=P1,P2,Pi其中Pi为Pi和Pi-1之间相差的半音，l=n-1为P的长度。通过采用音高半音差值序列作为音高特征进行匹配，可以解决音乐旋律在音高上的可平移性问题，也使得用户可以任意起调。 (2)对提取的歌曲音长特征序列，

33、采用相邻音长之间的比值作为节奏特征。即对于一个长度为n的音长特征序列R=r1,r2,rn，定义它的节奏特征序列为： R=r1,r2,ri,其中ri= (2in), l=n-1为R的长度。通过采用音长比值序列作为节奏特征进行匹配，可以解决音乐旋律的节奏在时间上的可伸缩性问题，也使得用户能够以任意的节奏哼唱。2.4音乐信息检索信息检索的核心目标是满足用户的信息需求。而一般用户对于音乐信息的需求要体现在查找某个(某类)特定的音乐作品、建立自己的音乐集、核对比较音乐作品三方面。根据这三种不同需求，广义的MIR可以分为搜索(searching)，过滤(filtering)，浏览(browsing)等三个

34、主要方向。2.4.1音乐搜索狭义的音乐检索指的就是音乐搜索，即由用户给出音乐的某种或某几种维度的描述符作为查询输入，经过MIR系统的处理，输出用户想要的音乐。尽管理论上可以采用任何维度作为查询输入，但实际系统大多而且只采用“旋律”这个维度特征。基于音乐旋律的检索需要计算查询输入与音乐库中各个文件的相似度。根据相似度计算方法的不同，我们可以将其分为三类:基于索引、基于序列匹配和基于几何图形。(1)基于索引该方法主要是借鉴文本信息检索的技术。建立索引可以大大提高检索效率，但是对于音乐检索，我们提取什么作为索引项(index term)以及怎样提取，都不是一个简单的问题。对于符号格式的音乐文件，通常

35、利用自动提取旋律内容描述符的方法，将得到的类似于文本检索中的音乐“词汇单元”(lexical unit)作为索引项，然后利用特征向量空间模型，用tfid计算权重。首先出现的是一种利用N-gram建立索引的音乐检索方法，此后又出现一些基于N-gram的改进方法可以对复调音乐建立索引进行检索的方法，而最终将具有音乐相关性的不定长音符序列作为索引项，并称之为musical phrase来实现音乐检索。(2)基于序列匹配该方法的一个典型应用是通过输入某个音乐作品的部分摘引从而得到准确完整的音乐。对于每一次查询，都要对查询序列与音乐库中所有的文件进行比对计算。该方法优点是:通过利用已有的近似字符串匹配技

36、术，可以对查询与文件可能出现的误匹配现象建模。利用计算生物学中的模式发现(pattemdiscovery)技术来寻找音乐库中查询的音高轮廓线的简化描述。还有其他一些类似的基于序列匹配的方法可以在中找到，除了利用近似字符串匹配技术，统计模型也被引入到序列匹配的方法中，对音乐库中提取的音乐主题集合用马尔科夫链建模的方法，文献13提出用隐马尔科夫模型(HiddenMarkovmodels，HMM)对哼唱查询中可能出现的错误建模。序列匹配技术的计算效率很高，对于一个大小为n的音乐库，输入一个长度为m的查询，其计算复杂度为(m+n)。然而由于每次查询都要与库中所有文件进行比对，计算代价与库的大小成正比，

37、这也就意味着利用该方法的查询具有很低的可扩展性。文献14提出利用剪枝技术(pruning techniques)解决这个问题。(3)基于几何图形如果我们用横轴表示时间，纵轴表示音高，那么音乐就可以用几何图形来表示。同样我们也可以将查询转化为几何图形的形式，于是只要比较这些图形之间的相似性就可以得到我们需要查找的音乐。这种方法的优点主要体现在处理复调音乐上，即无需提取其主旋律。上海交通大学的李扬提出的LAM(Linear Alignment Matching)算法就是基于旋律线的一种几何图形方法的改进。2.4.2音乐过滤由于网上购物的不断发展，越来越多的人选择通过互联网购买音乐专辑。音乐自动推荐

38、系统(automatic recommender systems)可以代替音乐专家，根据用户自己的兴趣特点提供音乐推荐。协同过率(collaborative filtering)是推荐系统最常用的技术，但是存在“新添项”(new item)和“冷启动”(cold start)问题。因此，研究人员提出了一些基于内容的音乐推荐系统。这些系统的设计思想是利用用户已经评定的项的集合，去推荐那些与其元素相似度接近的新项，而音乐特征的选择取决于哪些音乐维度与用户更为相关。音乐播放列表的自动生成是MIR里的特有任务。它与音乐推荐有所不同，音乐播放列表里的音乐通常是用户己知的音乐而且其排列顺序通常是相关的。文

39、献15将播放列表的生成看作是在结点为歌曲、边为相似歌曲的连线的图(graph)上寻找一条路径(Path)的过程。2.4.3音乐浏览、分类前面提到的音乐搜索只是对音乐库进行访问的方式之一。我们还可以像访问文本文件或其它多媒体文件那样，用浏览音乐库、查看音乐文件分类目录或者利用相关视觉线索等更有效的方式去访问音乐库。(1)音乐库浏览对音乐库的浏览是一种自然而可行的访问方式。而且音乐库的导(navigation)时常与基于内容的音乐检索结合在一起。音乐的浏览与导航都是基于音乐文件“相似性”这一概念的。原则上讲“相似性”是用户独立(user-dependent)的，而且是随时间变化的。但是大多数音乐浏

40、览方法都是基于预先设定好的音乐维度的静态相似性计算。(2)音乐浏览分类音乐分类通常是指将音乐按照流派、风格进行分类。音乐分类与不同的音乐文化有关。比如在国内，通常可以将歌曲分为流行、民族、美声、原生态四类。而对于西方音乐，又有另外一套分类体系。对用户而言，只对乐曲进行一个简单的分类用处不大，因为每个类别里都有成百上千首乐曲。而另一方面用户对乐曲的类别信息又十分关心，这些信息可以作为用户的个性档案资料来为MIR系统服务。最早介绍音乐分类的论文之一是文献16。音乐分类系统主要基于三个特征:节奏、音高、音色，而且研究结果表明节奏在音乐分类中起到的作用最大。3.MP3音乐格式分析和旋律特征抽取本论文所

41、研究的基于内容的音乐检索系统将涉及两种类型的MP3音乐。其一是单音色、单声部的MP3音乐。它可以通过用户哼唱并以MP3格式或wav格式录制而成，也可以是用户手里已有的或通过其它途径录制的单音色、单声部的MP3查询音乐。其二是多声部的MP3音乐。它可以是被查询数据库中的整首MP3音乐，也可以是其中的某一多声部MP3音乐片段。无论是哪种类型的MP3音乐，本论文所采取的策略都是先将其解压成原始数字音频信号流PCM，而后再作进一步的分析处理。3.1 MP3的音乐格式分析及编解码算法3.1.1 MPEG概述MPEG(Moving Picture Experts Group)是动态图像专家组织的英文缩写，

42、是一个致力于数字视频、音频技术发展及标准化的杰出组织。该组织于1992年正式推出了具有1.5Mbit /s数据传输率的数字存储媒体运动图像及其伴音的MPEG-1的标准草案，并于1993年正式通过。该标准规定了数字音视频编码的国际标准，主要包括系统、视频和音频三个方面。视频压缩仅仅包含画面信息，音频压缩包含声音信息，系统实现音频和视频的同步。所有播放音频压缩数据所需的时钟信息包含在系统流中，其中音频编码可以独立使用。MPEG-1音频编码标准可以把CD音质的两个通道共同包含的1.4Mbit/s数据流压缩到128lKMbit/s，且仍保持高保真的声音，很快得到了国际认可。MPEG-1和MPEG-2音

43、频编码都提供了三个压缩层。Layerl是简单压缩，它是一种听觉心理声学模型下的亚抽样编码；Layer2加入了更高的精度；Layer3就是现在流行的MP3音乐格式，加入了非线性量化、哈夫曼编码和其它实现低速率高保真音质的先进技术，可以把一个1.4Mbit/s的立体声双声道数据流压缩为32Kbit /s-384Kbit/s，且保持高保真的音质。3.1.2 MP3编码原理图3.1 MP3编码过程MP3编码主要由七部分组成，其基本原理是将声音信号由时间域转换成频率域，且仅保留人耳听觉范围20-20kHz的声音信号，因此也可以将这种编码方法称为听觉心理的演算法(Psychoacoustic Algor

44、ithm)。编码过程如图3.1所示。(1) 多相滤波器组。使用MPEG-Audio的演算法提供时间域与频率域的对应转换，将每帧的PCM样值分解到32个等宽的子带内，每个子带内包含36个样值。(2)MDCT。将每个多相滤波器组输出的每个子带的36个信号转换到频域，并增强每个子带的频谱分辨率。同时定义了四种窗函数类型，分别为长窗(1ong window)、短窗(short win dow)、开始窗(start window)和结束窗(end window)。(3)心理声学模型。以听觉心理学的原理为依据，用来模拟人的听觉特性，决定当前声音中的哪些特性是和听觉相关的，哪些特性是和听觉无关的，针对多相滤

45、波器组的每个子带进行声音信号的掩蔽。在MPEG-1音频标准中定义了两种可以在MP3编码器中使用的心理声学模型，这两种模型都先将信号经过傅立叶频谱转换，再映射到临界频带(Critical Bands)，并根据频谱的分析结果进行窗函数的选择。(4)非线性量化和比特率控制。采用非线性量化方法，根据声学模型提供的信掩比，动态分配比特，以满足码流速率和量化噪音要在临界频带中听不到的要求。(5)Huffinan编码。由于Huffman编码是一种无损压缩算法，因此在解码端可以完全恢复量化后的频率线。(6)边信息。传递编码过程中用到的所有相关参数，如Hufrman编码表的选择、量化因子和MDCT中应用的窗函数

46、类型等。(7)码流格式化。将Huffman编码后的频率线、量化参数、边信息、帧头信息、辅助信息等封装成一定格式的帧，根据需要还可以加入CRC校验。3.1.3 MP3帧格式帧是MP3文件最小组成单位，由帧头信息、CRC校验字、边信息、附加信息和声音数据等部分组成。每帧的播放时间是0.026秒，其长度随位率的不同而不等。经过压缩后的MP3文件数据由多个帧组成。下面简单介绍MPEG-1标准中规定的标准的MP3帧格式。(1) 帧头信息(Header)MP3的帧头包含32个比特，对于固定位率的MP3文件，所有帧的帧头格式都是一样的，其数据结构如下：Class FrameHeaderunmgned int

47、 sync： /同步信息ullslgnlxl int version： /版本unmgned int layer： /层unmgned hat protection； /CRC校验unmgn伽i int bitrate： /位率unmgned int frequency； /频率unmgned int padding； /帧长调节unmgned int private： /保留位unmgned int mode； /声道模式unmgned hat modeextension；/模式扩展unmgned hat copyright： /版权unmgnod hat original： /音源类型un

48、mgned int emphasis： /强调方式其中每个字节的使用说明见表3.1。(2)CRC校验字。这个CRC校验字是可选的，长度为16比特用来给解码器提供一定的检错能力。每一帧中，只有那些解码器最敏感的信息(如边带信息)才被包含在CRC校验之列。若有一帧发现错误，则必须采取相应的措施进行纠错，如重复前一帧或该帧不发声等。(3)边信息。边信息记录的是压缩音频在解码时所要参考到的相关信息。对于单声道模式，边信息占用17字节的长度，其它模式中边信息占用32个字节。边信息主要包含Main_data_ end指针、两个粒度(Grannul)的共用边信息(Scfsi band)、grannul0的边

49、信息及grannull的边信息4个方面内容。在MP3中，主数据并不一定跟随在边信息的后面。Main_data_end是一个9比特长的指针，用来标志当前帧主数据的结束，在其后的主数据就是下一个帧主数据的开始(Main_data_ begin)。共用边信息用来确定帧数据中的比例因子是两个粒度共用的还是针对单个粒度的。在MP3标准中，根据心理声学特性将20Hz-20KHz的频带分为21个(长窗)或12个(短窗)频率子带。这21个或12个频率子带又分为2个群，每个频率子带或群里的音频数据具有相似的特性，不仅给处理带来了方便，也提高了压缩质量。在压缩时，每个群都有一个比例因子，但对于双声道音频，比例因子

50、可能是一样的。因此，为了节省比特空间，提供了比例因子选择表3.1 帧头4字节使用说明信息。该数据段每声道占用4比特，每个比特对应一个比例因子群。“0表示此帧在该群的比例因子是独立的，“l表示比例因子是两个粒度共用的，只有粒度为0的比例因子被发送。(4)主数据。主数据包括比例因子(Scale Factors)和Huffman编码数据两部分。在MP3数据中，比例因子以比例因子带为单位，即比例因子带中的每个样点具有相同的比例因子。这些比例因子是否为两个粒度共用由Scfsi band变量决定。在处理MP3数据的时候，把每个粒度中的576个样点分成3个区域(Big_values，Countl，Rzer

51、o)。Rzero区域的数据不进行Huff rnan编码：Big_values区域中的样点，又被分成3个子区域，并对两个样点进行统一编码；在Countl区域中，对4个样点进行统一的Huffman编码。(5)附加信息。附加信息是可选的，用户可以自己定义想要记录的信息，比如可以记录音乐的标题、演唱者、专辑名称等一些额外的信息。3.1.4 MP3解码算法MP3解码算法大致可以分为两部分。第一部分和MP3码流的格式密切相关，包括同步、解帧头信息、CRC校验、解边信息、解比例因子和Huffman解码等：第二部分着重于数值计算，包括反量化、顺序重排、混叠重建、IMDCT和子带综合滤波等。如图3.2所示。图3

52、.2 MP3解码算法(1)同步和CRC校验。同步和CRC校验对输入的比特流进行识别并将信息传送给后续的模块。同步模块通过搜索同步字识别每一帧的位置，进而和比特流同步。只有知道了各帧的位置，解码器中的后续模块才有可以根据MPEG-1音频标准获得该帧中的所有信息。如果当前帧有CRC字，CRC校验模块将检查受保护的数据有没有错误。(2)边信息解码。边信息的长度只有两种可能，对于单声道，边信息的长度为136比特，而对于双声道为256比特。所以边信息解码相对来说比较简单，按照MPEG.1音频比特流的格式解码就可以了。(3)比例因子解码。比例因子是主数据的一部分，对比例因子进行编码的信息包含在边信息中，比

53、例因子解码时要用到这些信息。每一帧中的边信息在组织时基本是相同的，唯一的不同在于所包含的信息是与所对应的某一个粒度中的某一个声道相关。每一个传送的比例因子作用于一个比例因子带。比例因子带的数目也就是传送的比例因子的数目，决定于编码器中MDCT模块使用的窗函数类型。在一个粒度中，一个声道传送的比例因子的最大数目是36，在进行MDCT之前应用短窗时会达到这个最大值。在解码操作进行前，必须确定某一声道实际的比例因子数目。对于比例因子，可以采用两种压缩方式，边信息则包含了在特定的比例因子带中所使用的压缩方式的选择信息，因此在比例因子解码时必须用到边信息。此外，MP3各帧传送的比例因子数目可以各不相同，

54、其数目较少的情况发生在第一个粒度中某个声道的比例因子被第二个粒度中相应声道重用时。(4)Huffxnan解码。Huffinan编码是将576个经过余弦变换且量化后的量化值，按照频率的大小做升幂排序。Huffmaa编码器在进行编码前会先将频率值重新编排，并将排序过的频率值分成几个不同的编码区，使编码器在对每个不同的Huffinan表编码时，变成对这几个区域的统计。(5)反量化。经过Huffman解码之后的值需要经过反量化的过程，进行时必须根据量化时所使用的窗函数类型使用不同的反量化公式。对于长窗使用公式(3.1)： (3.1)其中：对于短窗使用公式（3.2）： (3.2)其中： Isi表示第i

55、个解完Huffmaa解码后的频率线，然后将完成Huffinan解码后的频率线开4/3次方加以还原：global_gain的参数值可以从边信息中取得；当边信息中的Sealefae_scale =0时，scalefac_multiplier=0.5,scalefae_scale=l时，scalefac_multiplier=l；scalef ac_l及scalefac_s是从scale factor所解出来的量化因子的值；preflag则是MP3标准规定中所设定的常数值，而210是系统中需要用来衡量的一个标准值。(6)顺序重排。顺序重排模块的作用是检测是否有子带使用短窗，如果有，则将这些子带内的频

56、率线的顺序重新按照MDCT输出的顺序进行排列。通过边信息中的变量Window_sw_fl ag和Block_type可以检测到是否需要重新排序。(7)立体声处理。MP3除了提供单声道及双声道之外，同时还提供强化立体声(Intensity stereo)和MS立体声(MS Stereo)这两种立体声的编码方式。后面两种编码方式的左右声道就不是单纯的反量化处理后得到的值，还需要通过立体声处理将编码过程的立体声信号还原为左右立体声信号。强化立体声模式是将较高频的子频带信号编码为一个单个的总和信号，而不是分别独立的传送左右子带信号，左右声道的平衡可以通过比例因子来传输。解码器通过单个信号来重构左右两个

57、声道的信号，右声道的平衡比例因子用is_possfb来表示。解码时利用公式(3.3)和公式(3.4)解出左右声道信号： (3.3) 和 (3.4)MS立体声模式是将左右两声道的信号分别相加及相减产生的，两者相加可以获得Middle声道的信号，而两者相减则可以获得Side声道的信号。然后再将Middle和Side声道的信号分别利用左右声道播放出来。MS立体声模式是无失真的编码，Middle声道保留较多的信息，而Side声道则保留较少的信息。在解码时，左右两个声道可以通过公式(3.5)来重建，其中i表示的是频率线的序号：和 (3.5)(8)混叠重建。为了避免相邻的两个子频带之间出现互相干扰的现象

58、，所以在编码和解码时都要有混叠重建模块来做处理以减少失真所造成的影响。混叠重建算法在每一个子带中由8次蝶形运算完成，是去除混叠的逆运算。(9)IMDCT。从混叠重建模块输出的频率线在逆修正离散余弦变换(1MDCT)模块中变换成子带综合滤波器样本。频率线由Xk表示，子带综合滤波器样本由Si表示，IMDCT的解析表达式为： i=0,1,n-1 (3.6)其中在长窗、开始窗和结束窗时，n为36，而在短窗时，n为12。做完反余弦变换之后，根据Block_type的不同取值，xi与以下的窗函数相乘：当Block_type=0（长窗）时： i=0,1,35 (3.7) 当Block_type=1（开始窗）

59、时： (3.8)当Block_type=2 (短窗)时： i=0,1,11 (3.9)当Block_type=3 (结束窗)时：（3.10）反余弦变换的结果xi与窗函数wi乘积如下：当Block_type!=2时： (3.11)当Block_type =2时： (3.12) (3.13)IMDCT的计算以子带为单位，每次输入1个子带的18个样值，产生36个样值。这36个样值中，前18个值和上一个粒度保存下来的18个值对应相加用于子带综合滤波的计算，后18个被保存下来，用于和下一粒度对应的18个样值累加。(10)频率倒置。为了补偿在编码时分析滤波器组中的频率倒置，每个奇次子带中的奇次样本都乘以

60、-1。(11)子带合成滤波器。子带合成是对IMDCT变换后一个通道中32个子带的样值。经过一系列运算还原出32个PCM数字音频信号的过程。子带合成过程先将32个子带样值进行IMDCT变换，生成64个中间值，将这64个中间值转入到一个长为1024点的类似先进先出FIFO的缓存，再从这1024个值中抽取一半，构成一个512个值的矢量，进行加窗运算，最后将加窗结果进行叠加产生32个时域输出。在子带合成滤波器中，通过IMDCT变换将32个等频带宽内的频域信号反变化成64个样值的算法公式如F： i=0,63 (3.14)3.2 旋律特征提取通过对MP3进行解码，得到了原始数宁音频信号流PCM，接下来便需要对

展开阅读全文

温馨提示:
1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2: 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3.本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

备案号:蜀ICP备2024067431号-1 川公网安备51140202000466号

本站为文档C2C交易模式，即用户上传的文档直接被用户下载，本站只是中间服务平台，本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私，请立即通知装配图网，我们立即给予删除！

基于内容的音乐检索技术研究定稿

最新文档

相关资源

相关搜索