音乐特征分析及其在音乐检索中的应用——基于哼唱的音乐检索

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:ll730520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展和信息时代的到来,数字音乐的数量越来越庞大。如今网上有很多站点提供音乐在线播放和下载,这些站点往往收录了成千上万甚至更多的音乐;即使是在个人电脑上,收藏的音乐通常也会有几千首。越来越多的音乐使人们获得了更为丰富的艺术体验,但同时也给音乐库的管理和检索带来了很大的困难,因此有必要研究新的智能化的音乐管理和检索方法。 基于哼唱的音乐检索是一种智能化的音乐检索方法,它与传统的基于文本的检索方法有着根本的区别。本文的研究内容就是基于哼唱的音乐检索,它涉及到两个关键的问题:如何准确地从音乐中提取得到特征(通常是基音提取) 以及如何准确地进行特征间的匹配(通常是使用动态时间规整算法)。 在特征分析方面,基于哼唱的音乐检索绝大部分都使用了基音作为音乐的特征,所以特征分析的关键就是如何准确地从音乐中提取得到基音特征。针对背景音乐对基音提取的干扰,本文提出了一种新的基于基频矩阵的基音提取算法,该算法利用基频矩阵来进行基音提取,从各种可能的基频中找出最为可能的基频值,即使在很强的背景音乐下依然能够准确提取得到歌手唱声的基音,从而保证了检索系统的准确性。 在特征匹配方面,虽然目前常用的动态时间规整算法能够实现时间对准,可以纠正哼唱输入的时间误差,但是哼唱输入除了时间误差外还有音调误差,本文对动态时间规整算法进行了改进,引入了高度(音调)动态调整,在特征匹配的过程中动态调整哼唱输入的音调高低,使之能够纠正哼唱输入的音调误差,提高了特征匹配的准确性。另外考虑到特征匹配的算法复杂度太高,本文引入了可变长搜索,它在已知匹配起点后能够一次得到匹配的长度,简化了搜索的复杂度,从而提高了检索的速度。 在使用本文提出和改进的算法对2250首wav格式的音乐组成的音乐库和100首哼唱输入进行的实验中,Top10的准确率达到87%,Top 5达到70%,Top 3达到59%,而Top 1也达到36%,证明了本文提出的基于基频矩阵的基音提取算法以及改进后的动态时间规整算法是可行而且有效的。
其他文献
离散余弦变换是广泛应用于信号处理、图像处理领域的重要工具之一,已经被多个国际标准所接受,如JPEG、MPEG、H.263等。DCT应用到实际系统中的前提是具有能够快速实现的算法,自从1
随着能源短缺和环保问题的日益突出,电动汽车已经成为汽车工业发展的方向之一。目前电动汽车尚存在续驶里程短、寿命短、初期成本高、安全性差等问题,均来自于车用动力电池系统
网络进入2.0时代之后,基于用户的应用大量出现,用户创造信息的热情被充分的激发,致使网络中信息出现井喷现象,信息数量呈几何级数增长,网络中出现了大量的用户个人信息和微内
通过计算机尽可能逼真的模拟现实世界,一直是计算机图形学,特别虚拟现实技术的一个研究热点。流体模拟作为计算机图形学的一个很具有挑战性的研究课题,具有很好的商业价值,在航海
RFID家校通系统是基于中间件技术的一个实现家庭与学校快捷、实时沟通的教育网络平台,它通过RFID无线射频识别技术,对学生进出校进行实时记录,并通过短信平台实时反馈到家长的手
正交频分复用(OFDM)技术是多载波传输方案中的一种有效传输方式,由于其具有良好的抗多径干扰能力和较高的频带利用率,已经成为近年来研究的热点之一,被认为是第四代移动通信
分布式编码(Distributed Video Coding)是基于Slepian-Wolf边信息无损压缩和Wyner-Ziv边信息有损压缩理论的一种新的视频编码理念。即,独立同分布信源在独立编码、联合解码的
为实现电动汽车的家庭充电,需研发220V交流市电输入的车载充电机。车载充电机作为典型的开关电源电路,其工作原理决定了其本身处于复杂的电磁环境之中。一方面充电机全桥逆变电
“TD-SCDMA RRM终端一致性测试系统”对保障TD-SCDMA终端性能和质量,促进TD-SCDMA终端技术的成熟具有重要意义。基于TTCN语言编写,在TD-SCDMA RRM一致性测试系统开发环境中设
作为电子公文实际推广应用的根本保障,完善实用的安全体制是实现无纸化办公的基础,相关研究有着十分重要的理论和现实意义。本文针对国内电子公文的建设现状和应用习惯,提出以基