论文部分内容阅读
随着互联网的发展和信息时代的到来,数字音乐的数量越来越庞大。如今网上有很多站点提供音乐在线播放和下载,这些站点往往收录了成千上万甚至更多的音乐;即使是在个人电脑上,收藏的音乐通常也会有几千首。越来越多的音乐使人们获得了更为丰富的艺术体验,但同时也给音乐库的管理和检索带来了很大的困难,因此有必要研究新的智能化的音乐管理和检索方法。
基于哼唱的音乐检索是一种智能化的音乐检索方法,它与传统的基于文本的检索方法有着根本的区别。本文的研究内容就是基于哼唱的音乐检索,它涉及到两个关键的问题:如何准确地从音乐中提取得到特征(通常是基音提取) 以及如何准确地进行特征间的匹配(通常是使用动态时间规整算法)。
在特征分析方面,基于哼唱的音乐检索绝大部分都使用了基音作为音乐的特征,所以特征分析的关键就是如何准确地从音乐中提取得到基音特征。针对背景音乐对基音提取的干扰,本文提出了一种新的基于基频矩阵的基音提取算法,该算法利用基频矩阵来进行基音提取,从各种可能的基频中找出最为可能的基频值,即使在很强的背景音乐下依然能够准确提取得到歌手唱声的基音,从而保证了检索系统的准确性。
在特征匹配方面,虽然目前常用的动态时间规整算法能够实现时间对准,可以纠正哼唱输入的时间误差,但是哼唱输入除了时间误差外还有音调误差,本文对动态时间规整算法进行了改进,引入了高度(音调)动态调整,在特征匹配的过程中动态调整哼唱输入的音调高低,使之能够纠正哼唱输入的音调误差,提高了特征匹配的准确性。另外考虑到特征匹配的算法复杂度太高,本文引入了可变长搜索,它在已知匹配起点后能够一次得到匹配的长度,简化了搜索的复杂度,从而提高了检索的速度。
在使用本文提出和改进的算法对2250首wav格式的音乐组成的音乐库和100首哼唱输入进行的实验中,Top10的准确率达到87%,Top 5达到70%,Top 3达到59%,而Top 1也达到36%,证明了本文提出的基于基频矩阵的基音提取算法以及改进后的动态时间规整算法是可行而且有效的。