论文部分内容阅读
随着音乐数字化、网络和手机技术的不断发展,将三者互联满足人们日常生活、学习和娱乐成为大势所趋。传统的音乐检索方式必须通过文本标注,它要求用户给出乐曲名、演唱者、词曲作者、歌词等关键字,给用户的使用带来了种种限制。随着生活节奏的不断加快,人们已经不满足于这种基于文本的音乐检索,希望通过哼唱出自己脑海中残留的一个旋律片段作为检索输入,检索出包含该旋律片段的目标乐曲。这种基于哼唱的音乐检索技术的提出给用户带来了极大的便利,同时也是人工智能领域一个极大的挑战,在网络、手机和卡拉OK等市场都极具商业空间。本文对基于哼唱的音乐检索技术进行了研究。主要内容如下:
⑴介绍了哼唱检索的研究现状,与本文相关的乐理知识,对音乐的四要素进行了重点阐述,分别描述了音乐物理级、声学级和语义级的特征,还对信号处理的基本方法做了介绍,为后续的特征表达和特征提取做了充足的前期准备。
⑵采用音高差和音长比作为特征向量,避免哼唱中出现的起调不一致和节奏快慢不均的问题。特征提取阶段计算时域信号互相关来估算基音周期,通过计算短时能量的平均值和标准差,设定动态阈值来切分哼唱输入音符,获得音符的音高差和音长比信息。
⑶提出了一种基于N-Gram的改进式DTW算法。该算法采用动态时间规整(Dynamic Time Warping,DTW)为算法原型,在此基础上采用音高差作为特征,并且对边界条件进行了限制,同时加入了音长相似度,将获得的DTW距离与音长相似度加权求和求得最终相似度得分。考虑到算法计算过程的效率问题,采用基于N-Gram的方法对乐曲库设定了索引,有效改善了系统的检索效率。