论文部分内容阅读
近几年,随着网络上多媒体数据的增加,如何采用更加方便的方法进行快速检索已经成为一个研究的热点。特别是对于音频来讲,由于音乐数据的大量增加,一种能够更加有效检索这些海量数据的检索系统成为了目前的迫切需要。传统的检索方式是基于文本进行检索的,这需要对音乐文件进行文本信息的标注,例如歌名、演唱者、作曲者等。而基于内容的哼唱检索方式仅需要用户哼唱一小段旋律,就可以检索出相应的歌曲。这种新的检索方式不仅减小了音乐库所需的存储空间,同时也为用户检索音乐提供了极大的方便。
哼唱系统将采集到的用户哼唱信号经过预处理模块进行语音增强,在特征提取模块中对增强过的信号进行特征提取,用提取到的特征信息和音乐特征库中的特征信息进行旋律相似度计算,最后得出检索排名。
本文对哼唱检索(QBH)的主要模块——预处理模块、特征提取模块和旋律匹配模块进行了研究和改进。
首先,分析比较了几种语音增强算法的优缺点,采用了基于变参的改进减谱法作为哼唱检索的预处理模块。经过测试,变参的减谱法在噪声较大的情况下对于哼唱检索的排名提高有较好的效果,有效率为93.3%。
其次,鉴于哼唱旋律音调高低和节奏快慢的不同,提出了对于提取到的语音特征进行归一化处理的方法。这种方法有效的提高了哼唱检索的排名,有效率为85.7%。
最后,考察了几种旋律相似度计算的方法,构建了一个两层结构的旋律匹配模块。第一层采用EMD算法对旋律进行初步检索;第二层采用DTW算法对第一层检索排名前20的序列进行进一步检索,计算得到的DTW旋律相似度与EMD旋律相似度进行加权和,得到最终的检索排名。同时,本文针对传统EMD算法和DTW算法进行改进,提出基于权值均方的EMD算法和基于二维变量的DTW算法。经过测试,EMD算法的改进有效率为85.7%,DTW算法的改进有效率为79.2%。