论文部分内容阅读
随着计算机科学技术的飞速发展,人们不再满足于单一的检索方式。哼唱检索(QBH:Query By Humming)作为一种全新的检索方式,可以帮助用户通过哼唱旋律的片断,在大规模的音乐数据库中找到想要的乐曲。歌谱是音乐的高级特征,若能准确识别出歌谱信息,则检出率会得到很大提高。如何快速而精确地从哼唱信号中识别出音符序列是一个具有挑战性的课题。本文将语音识别的技术应用到音乐检索当中,实现音乐的高级特征识别,为大规模QBH系统走向实用化提供了关键性技术,并开展了以下研究工作:(1)对整个语音识别系统理论进行了全面分析,通过分析语音识别的特点和哼唱检索的难点,给出了结合语音识别技术的哼唱检索系统的处理方案。(2)总结了在语音识别建模中广泛应用的隐马尔可夫模型的基础理论。并且给出了DTW和HMM两种经典算法的比较,说明了HMM模型的优势。(3)采用了基于统计模型的哼唱旋律模型算法进行语音识别。算法将每个音符(以及静音)分别视为一个单词。阐述了在HMM模型的基础上,对声学模型和语言模型的训练数据和训练过程。(4)在训练声学模型时发现,即使采用基频算法,也无法避免在基频估计以及清浊判定的过程中引入错误,从而对系统性能产生负面影响;针对这一问题,对特征提取做了研究。最终在声学模型方面,采用了高阶倒谱系数作为特征,提高了鲁棒性。同时,训练采用了调无关的四元语言模型以体现不同音符序列在歌曲中分布的先验概率。(5)设计了一个应用语音识别技术的音乐哼唱检索系统。通过实验,从音符识别错误率和哼唱查询系统整体性能的角度给出评测结果,并与另一个先进旋律识别系统进行了比较。实验证明,该系统对环境噪声有较好的鲁棒性,同时在干净数据上的性能具有很好的效果,具有较高的检索精度。本研究工作得到国家自然科学基金“基于Web的音频识别与检索关键技术研究(基金编号:60673100)”的资助。