论文部分内容阅读
随着互联网的快速发展及数字化设备的普及,多媒体数据的数量正在飞速增长,音频数据作为多媒体数据的重要组成部分,其信息量也在不断膨胀。传统的基于文本的信息检索无法满足人们对音乐检索的需求。如何有效的对音频信息进行检索成为现代信息检索的一个重要的研究课题。基于内容的音乐检索方式,从新的角度来管理音乐信息,根据音乐中的旋律、音高、节奏等内在信息进行检索。哼唱音乐检索是一种基于内容的音乐检索方法,它对于音乐的快捷查询、歌手的训练以及帮助作曲家们自动记谱等方面都有很好的应用前景,有可能成为下一代音乐检索的核心技术之一。基于哼唱输入的音乐检索的模型,主要包括三部分:哼唱信号特征提取、旋律的表示以及旋律匹配。本文主要做了以下工作:1、首先围绕“音”展开研究和分析,介绍了语音信号的时域和频域特征,然后介绍了音乐中音的性质和音的要素,得出一般人,辨认一首乐曲,主要是依靠旋律。通过对音乐旋律表示法的研究表明,音乐旋律的高低起伏和数字有着天然的亲和性,因而用数值来表示音乐旋律有着无与伦比的优势。2、通过对传统基频提取方法的分析,本文在提取基频轨迹时,采用小波变换结合自相关函数法。将小波变换后的信号进行加权处理,然后再结合自相关函数法进行信号分析。在设计加权系数时,考虑到了男女声的基频范围不同,针对两种信号采用了不同的加权系数,使两种信号都能得到光滑的旋律轮廓曲线。3、旋律匹配时,采用动态时间规整(Dynamic Time Warping--DTW)算法。它是把时间规整和距离测度计算结合起来的一种非线性规整技术。它通过不断计算两向量的距离来求最优的匹配路径。单纯的使用DTW算法进行哼唱旋律的匹配,需要的时间代价很大。在进行音乐旋律匹配时,需要将哼唱信号的音调平移到跟要对比的目标乐音的音调一致才能够计算出DTW的真正值,用来作为相似度的判断标准。但是正是由于进行了这种移调处理,使得DTW算法计算量大大增加。本文采用一种改进的动态时间规整方法。另外,本文还提出了一种与音调无关的音乐旋律的表示方法,在进行DTW算法时可以避免上下平移音调,减少旋律匹配的运算量。在本文设计的模拟系统上,针对各个模块进行实验模拟分析,证明了提出的方法的有效性。