哼唱检索处理技术的研究
Research on Processing Technology of Query by Humming
【中文摘要】 随着互联网的快速发展及数字化设备的普及,多媒体数据的数量正在飞速增长,音频数据作为多媒体数据的重要组成部分,其信息量也在不断膨胀。传统的基于文本的信息检索无法满足人们对音乐检索的需求。如何有效的对音频信息进行检索成为现代信息检索的一个重要的研究课题。基于内容的音乐检索方式,从新的角度来管理音乐信息,根据音乐中的旋律、音高、节奏等内在信息进行检索。哼唱音乐检索是一种基于内容的音乐检索方法,它对于音乐的快捷查询、歌手的训练以及帮助作曲家们自动记谱等方面都有很好的应用前景,有可能成为下一代音乐检索的核心技术之一。基于哼唱输入的音乐检索的模型,主要包括三部分:哼唱信号特征提取、旋律的表示以及旋律匹配。本文主要做了以下工作:1、首先围绕“音”展开研究和分析,介绍了语音信号的时域和频域特征,然后介绍了音乐中音的性质和音的要素,得出一般人,辨认一首乐曲,主要是依靠旋律。通过对音乐旋律表示法的研究表明,音乐旋律的高低起伏和数字有着天然的亲和性,因而用数值来表示音乐旋律有着无与伦比的优势。2、通过对传统基频提取方法的分析,本文在提取基频轨迹时,采用小波变换结合自相关函数法。将小波变换后的信号进行加权处理,然后再结合自相关函数法进行信号分析。在设计加权系数时,考虑到了男女声的基频范围不同,针对两种信号采用了不同的加权系数,使两种信号都能得到光滑的旋律轮廓曲线。3、旋律匹配时,采用动态时间规整(Dynamic Time Warping--DTW)算法。它是把时间规整和距离测度计算结合起来的一种非线性规整技术。它通过不断计算两向量的距离来求最优的匹配路径。单纯的使用DTW算法进行哼唱旋律的匹配,需要的时间代价很大。在进行音乐旋律匹配时,需要将哼唱信号的音调平移到跟要对比的目标乐音的音调一致才能够计算出DTW的真正值,用来作为相似度的判断标准。但是正是由于进行了这种移调处理,使得DTW算法计算量大大增加。本文采用一种改进的动态时间规整方法。另外,本文还提出了一种与音调无关的音乐旋律的表示方法,在进行DTW算法时可以避免上下平移音调,减少旋律匹配的运算量。在本文设计的模拟系统上,针对各个模块进行实验模拟分析,证明了提出的方法的有效性。
【英文摘要】 With the rapid development and widely popularity of Internet technology and digital equipment, there has been a tremendous increase in the amount of multimedia. This has caused the information contained in audio music, which is an important part of multimedia data, to expand greatly. The traditional music retrieval system, which is based on the text, can’t meet the needs of music retrieval. How to retrieval the audio music information effectively is a significant research subject in modern information retrieval field.Content Based Music Retrieval techniques manage the music information in the new views. It searches the information by the melody, lyrics, pitch and so on. Query by humming, which is one of the techniques, has a bright application prospect. Such as music quickness retrieval, self-training of singers and helping composers to memorize music composition. So query by humming music retrieval technique might become one of core technology in the next generation of music retrieval.The model of query by humming music retrieval contains three parts: the features extraction of humming music, melody representation and melody matching. This paper mainly discusses as follows:Firstly, it introduces time-domain and frequency-domain characters of speech signals, and describes properties and elements of music, and then draws a conclusion that to recognize a piece of music depends on its melody. Through the discussion about music melody representation, the fluctuation of music melody and digital has naturally compatibility with each other, so it’s a good advantage to use numerical sequences to represent music melody.Secondly, the paper proposed a method, which combines the wavelet analysis with the autocorrelation function, to extract the base frequency from the humming music. Considering different fundamental frequency domain between male and female, this paper designs different weighted coefficient, and obtains different smooth melody contours.Thirdly, DTW algorithm, which combines with time warping and distance measure calculation, is a kind of nonlinear warping technology. It calculates the distance between two vectors to seek the optimal matching path uninterruptedly. While using DTW algorithm simply, it needs much time cost. In the melody matching, the improved music melody matching algorithm is presented. While carrying through music melody matching based on DTW algorithm,need to transit the tone of humming signal needs to be transited to the target one compared with in order to make out DTW’s real values. It is also used as the criteria of similarity. But just because of using this kind of transition, the calculation by this algorithm increases a lot. In this paper one kind of music melody representation irrespective with tone is presented. While carrying through the DTW algorithm, it can avoid the up and down transition of tone and also reduce the calculation of melody matching.Finally, we designed a system model of query by humming in music retrieval, analyzed the result of various modules’experiment, and proved effectiveness of the proposed methods.
【中文关键词】 音乐旋律; 音高差; 线性伸缩; 旋律匹配; 动态时间规整
【英文关键词】 music melody; pitch interval; linear scaling; melody matching; dynamic time warping
【论文目录】
摘要 4-5
Abstract 5-6
1 引言 9-16
1.1 研究背景及意义 9
1.2 哼唱检索系统的概述 9-11
1.2.1 哼唱检索系统中的模块介绍 10-11
1.3 哼唱检索处理技术的发展现状 11-14
1.3.1 音乐旋律表示方法的研究现状 11-13
1.3.2 音频信号检索与匹配的研究现状 13-14
1.3.3 核心问题和关键技术 14
1.4 本文的研究思路 14-16
2 语音信号与音乐信号的特征分析与研究 16-25
2.1 语音信号的特征 16-18
2.1.1 时域特征 16-17
2.1.2 频域特征 17-18
2.1.3 声学感知特征 18
2.2 音乐的基本常识 18-20
2.2.1 音的性质 18-19
2.2.2 音的要素 19-20
2.3 语音信号与哼唱音乐信号的联系与区别 20-21
2.3.1 语音信号与音乐信号的异同 20
2.3.2 音乐识别与语音识别的异同 20-21
2.4 音频音乐信息的数字化表示 21-22
2.4.1 数字音乐信息的存在形式 21
2.4.2 常见的数字音频音乐文件格式 21-22
2.5 本文主要研究WAVE 格式的音频音乐文件 22-24
2.5.1 WAVE 文件介绍 22-23
2.5.2 WAVE 文件的结构 23-24
2.6 本章小结 24-25
3 哼唱检索的特征提取及表示 25-36
3.1 关于音乐旋律表示法的讨论 25
3.2 哼唱信号的音高提取方法的研究 25-30
3.2.1 传统的音频信号基频提取技术 26-29
3.2.2 传统基频提取方法的不足 29-30
3.3 旋律轮廓提取的预处理 30-32
3.3.1 哼唱音乐的输入 30
3.3.2 哼唱音乐信号的预处理 30-32
3.4 旋律轮廓提取的方法 32-35
3.4.1 音高特征提取 32-33
3.4.2 男女哼唱信号选用不同的加权系数 33-35
3.5 本章小结 35-36
4 旋律匹配算法的研究 36-46
4.1 常用的旋律匹配方法 36-37
4.1.1 几种常用的匹配方法 36
4.1.2 常用匹配方法的比较 36-37
4.2 DTW 算法的介绍 37-39
4.2.1 DTW 的基本概念和原理 37
4.2.2 音乐旋律匹配的DTW 算法描述 37-39
4.3 DTW 算法的改进 39-45
4.3.1 DTW 的路径限制 39-40
4.3.2 音高序列的平移 40-42
4.3.3 线性伸缩方法 42
4.3.4 采用音高差序列来表示旋律序列 42-45
4.4 本章小结 45-46
5 系统设计与实验分析 46-53
5.1 实验目的及设计思路 46-47
5.1.1 实验目的 46
5.1.2 设计思路 46-47
5.2 实验样本的选取 47
5.2.1 实验样本 47
5.2.2 实验样本的格式 47
5.3 实验过程 47-51
5.3.1 哼唱旋律提取 48-50
5.3.2 音乐库中音频音乐的旋律提取 50
5.3.3 旋律匹配实验结果分析 50-51
5.4 影响因素分析 51-52
5.4.1 影响哼唱的准确率的因素 51-52
5.4.2 影响匹配结果准确率的因素 52
5.5 本章小结 52-53
6 结论与展望 53-55
6.1 本文结论 53
6.2 研究展望 53-55
参考文献 55-59
在读期间发表的论文 59-60
作者简介 60-61
致谢 61
返回栏目页:音乐欣赏论文