基于哼唱的音乐检索技术研究与实现

来源 :上海海事大学 | 被引量 : 7次 | 上传用户:kingzdh410
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着多媒体技术和网络的迅速发展,数字化的视频、音频信息已取代模拟视频、音频信息遍及INTERNET,如何从海量的数字信息中检索出我们需要的内容,是当前研究的热点问题之一。传统的音乐信息检索方法是基于曲名、作者、演奏者等等这样的属性。但这种方式并不是最理想的检索方式。这些信息本质上讲不是音乐内容本身,而是音乐的附属特征。一般情况下人们通过音乐的旋律特征来记忆音乐,所以很自然的想到利用哼唱歌曲旋律的方式来进行音乐的查找。基于内容的音乐检索技术是近年来的研究热点之一,它试图通过提取音频流中音高、音长等特征来表达和识别音乐的内容,并按照相似度量的方法检索音乐。其中最主要的两个问题是音乐特征提取和旋律的检索匹配。本文以音乐检索为背景,主要对哼唱容易发生的错误,音高的提取和检索算法进行了研究,在此基础上设计了一种音高提取方法,并从降低哼唱错误和特征提取不精确对检索的影响出发,提出了一种峰值对齐匹配算法。主要工作如下;(1)研究与检索相关的音乐知识。对声音的四要素,乐曲的定调规则,半音与声音频率的对应关系等进行了深入的研究,在此基础上总结了哼唱的音调与标准音调之间的差异。这些工作确定了提取何种特征,特征的量化,以及如何降低哼唱错误对检索的影响。(2)研究数字信号处理在特征提取中的应用。对时域分析和频域分析作了细致的分析和研究。由于歌曲声中混杂着人声、各种乐器声、掌声以及环境噪声等问题,因此设计了一种复杂声音环境下的主旋律音高提取算法。在音长提取方面,本文设计了一种不限定哼唱方式的音符分割方法,该方法也适用于从一般歌曲中提取的音高特征序列。因为两种算法的设计,使得本文所设计的原型系统中音乐库可以使用wav等格式的音乐,而非多数人使用的midi格式。(3)提出了峰值对齐匹配法。此算法与(U,D,R)算法,N-gram算法等字符串模糊匹配算法以及基于HMM的检索算法等统计模型的算法相比较属于轮廓比较算法。该算法可以较容易的降低哼唱中多种错误对检索过程的影响。算法速度优于以(U,D,R)算法为代表的部分字符串模糊匹配算法,也快于基于HMM模型的统计检索算法。实验结果表明,该算法是有效的,查询者绝大多数情况下能在查询结果的前几位找到查询的目标音乐。通过上述工作,证明了本文中算法的有效性,并建立了原型系统,实现了基于‘哼唱’的音乐检索。在基于内容的音乐检索方面进行了有益的探索和研究。
其他文献
随着电信运营商从传统基础网络运营商向现代综合信息服务提供商转变,运营商不再仅仅提供单一通信业务,业务类型,用户数和业务量大幅增长,与此同时,电信市场不断开放,市场竞争
基于内容的图像搜索是目前信息检索领域的研究热点,属于多学科交叉,涉及到计算机图形学、图像处理、数据挖掘、模式识别等多种技术。因为图像特征维数高且无序,所以基于内容
近年来,随着对计算生物学的高速发展,开发出的微阵列技术可以测量细胞中成千上万的基因。在这些基因中我们可以提取出许多数据,针对这些庞大的数据,我们可以从中得到许多有用的结
学位
随着计算机网络的不断发展以及计算机硬件价格的下降,将计算任务分布到多个物理主机上处理,以提高任务计算速度和降低任务运算成本已经成为一个趋势。这种通过通信线路将多台
随着移动数据业务的迅速增长和市场竞争环境的日益激烈,电信运营商迫切需要加快数据网管系统的建设,来提高维护管理水平和规划能力,保证移动数据业务向更深层次的发展。从发
OA (Office Automation:办公自动化)是企业信息化建设的重要组成部分。办公自动化系统的发展恰好与数据、信息和知识的演变同步,即以数据为主要处理内容的第一代办公自动化发展
煤气流分布状况直接影响高炉煤气热能和化学能的利用效率,关系到炉内温度分布、软熔带结构、炉墙热负荷、高炉热平衡状态以及高炉炉况的稳定顺行,高炉操作在很大程度上就是在于
在深入了解了人脸检测当前发展的动态,深入分析了各种人脸检测方法及人脸检测存在的问题的基础上,提出了本文的人脸检测方法。首先采用构建好的基于白平衡的自适应的肤色模型
近年来,随着观测设备和观测技术的发展,天文数据呈现爆炸式的增长,而计算机网络技术的快速发展又为这些海量天文数据的共享提供了有力的技术支持,因此,将天文学和计算机技术