音频哼唱检索算法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:sleepyxu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年,随着网络上多媒体数据的增加,如何采用更加方便的方法进行快速检索已经成为一个研究的热点。特别是对于音频来讲,由于音乐数据的大量增加,一种能够更加有效检索这些海量数据的检索系统成为了目前的迫切需要。传统的检索方式是基于文本进行检索的,这需要对音乐文件进行文本信息的标注,例如歌名、演唱者、作曲者等。而基于内容的哼唱检索方式仅需要用户哼唱一小段旋律,就可以检索出相应的歌曲。这种新的检索方式不仅减小了音乐库所需的存储空间,同时也为用户检索音乐提供了极大的方便。   哼唱系统将采集到的用户哼唱信号经过预处理模块进行语音增强,在特征提取模块中对增强过的信号进行特征提取,用提取到的特征信息和音乐特征库中的特征信息进行旋律相似度计算,最后得出检索排名。   本文对哼唱检索(QBH)的主要模块——预处理模块、特征提取模块和旋律匹配模块进行了研究和改进。   首先,分析比较了几种语音增强算法的优缺点,采用了基于变参的改进减谱法作为哼唱检索的预处理模块。经过测试,变参的减谱法在噪声较大的情况下对于哼唱检索的排名提高有较好的效果,有效率为93.3%。   其次,鉴于哼唱旋律音调高低和节奏快慢的不同,提出了对于提取到的语音特征进行归一化处理的方法。这种方法有效的提高了哼唱检索的排名,有效率为85.7%。   最后,考察了几种旋律相似度计算的方法,构建了一个两层结构的旋律匹配模块。第一层采用EMD算法对旋律进行初步检索;第二层采用DTW算法对第一层检索排名前20的序列进行进一步检索,计算得到的DTW旋律相似度与EMD旋律相似度进行加权和,得到最终的检索排名。同时,本文针对传统EMD算法和DTW算法进行改进,提出基于权值均方的EMD算法和基于二维变量的DTW算法。经过测试,EMD算法的改进有效率为85.7%,DTW算法的改进有效率为79.2%。
其他文献
作为科学发展观的核心,以人为本是党中央强调的执政理念,也是各个行业开展工作的原则之一,公共图书馆服务也不例外,坚持以人为本才能提高读者的满意度.本文首先分析了公共图
在无线通信中,由于无线电波传播的物理环境非常复杂,噪声、干扰、多径衰落等因素严重阻碍了提高无线通信系统的容量和可靠性。因此,信道估计是无线通信系统重要环节,如何准确实时
编码协作通信将协作与信道编码相结合,在多个独立的衰落信道中发送用户信息的不同编码序列。在多中继LDPC编码协作通信系统中,多个单天线中继分享各自天线,与目的点的多根接收天
法国高级时装设计大师伊夫·圣·洛朗(Yves Saint Laurent)被认为是一位处在时装之巅的艺术天才.他以多种艺术风格相结合的方式来体现他的设计理念,极富多元性.通过对他的服
图书馆以人为本作为服务主体的服务客体机构.首先确立以人为本的管理理念、服务观念,营造平等和谐的人文环境,创建和谐的图书馆,是构建和谐社会的需要.
飞行训练一直以来都是空军部队保障飞行安全、提高飞行员作战水平的一项重要内容。客观合理的对飞行训练的品质进行评估,能够达到真实衡量飞行员操作水平,改善飞行员飞行技巧,保
随着3GPP对LTE标准制定到了结尾阶段,其工作重心转至LTE-Advance(dLTE演进版本)。LTE-Advanced系统是LTE系统的演进,能够获取更高的系统吞吐量和频谱效率。LTE-A系统中的协作多点
随着无线电的迅速发展,认知无线电是目前解决无线频谱利用率低的最佳方案之一。认知无线电网络,相对于传统无线网络,会面临一些新的安全隐患,比如冒充主用户(PUE)信号的攻击
合成孔径雷达(SyntheticAperture Radar,简称SAR)通过发射大时间带宽积信号获得距离高分辨,利用雷达平台运动等效合成大天线孔径从而实现方位向高分辨,同时还具备全天候、全天时
本文以江西省遂川县图书馆为例,结合江西省其他县级图书馆的发展现状,借鉴我国已经实行县级图书馆总分馆制的先进经验,因地制宜地探索江西省县级图书馆总分馆制建设的思路,建