论文部分内容阅读
随着多媒体技术和网络的迅速发展,数字化的视频、音频信息已取代模拟视频、音频信息遍及INTERNET,如何从海量的数字信息中检索出我们需要的内容,是当前研究的热点问题之一。传统的音乐信息检索方法是基于曲名、作者、演奏者等等这样的属性。但这种方式并不是最理想的检索方式。这些信息本质上讲不是音乐内容本身,而是音乐的附属特征。一般情况下人们通过音乐的旋律特征来记忆音乐,所以很自然的想到利用哼唱歌曲旋律的方式来进行音乐的查找。基于内容的音乐检索技术是近年来的研究热点之一,它试图通过提取音频流中音高、音长等特征来表达和识别音乐的内容,并按照相似度量的方法检索音乐。其中最主要的两个问题是音乐特征提取和旋律的检索匹配。本文以音乐检索为背景,主要对哼唱容易发生的错误,音高的提取和检索算法进行了研究,在此基础上设计了一种音高提取方法,并从降低哼唱错误和特征提取不精确对检索的影响出发,提出了一种峰值对齐匹配算法。主要工作如下;(1)研究与检索相关的音乐知识。对声音的四要素,乐曲的定调规则,半音与声音频率的对应关系等进行了深入的研究,在此基础上总结了哼唱的音调与标准音调之间的差异。这些工作确定了提取何种特征,特征的量化,以及如何降低哼唱错误对检索的影响。(2)研究数字信号处理在特征提取中的应用。对时域分析和频域分析作了细致的分析和研究。由于歌曲声中混杂着人声、各种乐器声、掌声以及环境噪声等问题,因此设计了一种复杂声音环境下的主旋律音高提取算法。在音长提取方面,本文设计了一种不限定哼唱方式的音符分割方法,该方法也适用于从一般歌曲中提取的音高特征序列。因为两种算法的设计,使得本文所设计的原型系统中音乐库可以使用wav等格式的音乐,而非多数人使用的midi格式。(3)提出了峰值对齐匹配法。此算法与(U,D,R)算法,N-gram算法等字符串模糊匹配算法以及基于HMM的检索算法等统计模型的算法相比较属于轮廓比较算法。该算法可以较容易的降低哼唱中多种错误对检索过程的影响。算法速度优于以(U,D,R)算法为代表的部分字符串模糊匹配算法,也快于基于HMM模型的统计检索算法。实验结果表明,该算法是有效的,查询者绝大多数情况下能在查询结果的前几位找到查询的目标音乐。通过上述工作,证明了本文中算法的有效性,并建立了原型系统,实现了基于‘哼唱’的音乐检索。在基于内容的音乐检索方面进行了有益的探索和研究。