结合语音识别技术的音乐哼唱检索研究

来源 :西北大学 | 被引量 : 0次 | 上传用户:thangna9806
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机科学技术的飞速发展,人们不再满足于单一的检索方式。哼唱检索(QBH:Query By Humming)作为一种全新的检索方式,可以帮助用户通过哼唱旋律的片断,在大规模的音乐数据库中找到想要的乐曲。歌谱是音乐的高级特征,若能准确识别出歌谱信息,则检出率会得到很大提高。如何快速而精确地从哼唱信号中识别出音符序列是一个具有挑战性的课题。本文将语音识别的技术应用到音乐检索当中,实现音乐的高级特征识别,为大规模QBH系统走向实用化提供了关键性技术,并开展了以下研究工作:(1)对整个语音识别系统理论进行了全面分析,通过分析语音识别的特点和哼唱检索的难点,给出了结合语音识别技术的哼唱检索系统的处理方案。(2)总结了在语音识别建模中广泛应用的隐马尔可夫模型的基础理论。并且给出了DTW和HMM两种经典算法的比较,说明了HMM模型的优势。(3)采用了基于统计模型的哼唱旋律模型算法进行语音识别。算法将每个音符(以及静音)分别视为一个单词。阐述了在HMM模型的基础上,对声学模型和语言模型的训练数据和训练过程。(4)在训练声学模型时发现,即使采用基频算法,也无法避免在基频估计以及清浊判定的过程中引入错误,从而对系统性能产生负面影响;针对这一问题,对特征提取做了研究。最终在声学模型方面,采用了高阶倒谱系数作为特征,提高了鲁棒性。同时,训练采用了调无关的四元语言模型以体现不同音符序列在歌曲中分布的先验概率。(5)设计了一个应用语音识别技术的音乐哼唱检索系统。通过实验,从音符识别错误率和哼唱查询系统整体性能的角度给出评测结果,并与另一个先进旋律识别系统进行了比较。实验证明,该系统对环境噪声有较好的鲁棒性,同时在干净数据上的性能具有很好的效果,具有较高的检索精度。本研究工作得到国家自然科学基金“基于Web的音频识别与检索关键技术研究(基金编号:60673100)”的资助。
其他文献
随着个人电脑走入每一户家庭,人们对CPU的性能要求越来越高,从简单程序处理,到办公辅助系统,再到休闲娱乐,特别是大型游戏与多媒体对CPU的性能要求越来越高。过去的经验说明
基因表达式程序设计(Gene Expression Programming,GEP)结合遗传算法(Genetic Algorithm,GA)和遗传程序设计(Gene Programming,GP)二者各自的优点,可以使用线性定长的染色体
目的 探讨小儿细菌性腹泻的病原菌分布特点及耐药性.方法 选择2017年5月~2019年7月间到我院接受治疗的100例细菌性腹泻患儿作为研究对象,培养患儿的粪便标本,分离菌株做药物敏
云平台虚拟化技术不但使得软件应用具有更高的效率,也给任务调度与资源管理带来了新的机遇。随着云平台的任务逐渐增加,一些调度任务之间的关联性逐渐淡化,传统云平台任务调
煤矿安全事故频出,严重影响了正常的生产秩序以及人员的生命安全,因此更加显示出煤矿安全信息系统对于煤矿安全生产的重要性。现有的煤矿安全信息系统大多是以工业总线为基础构