基于隐马尔科夫模型的钢琴音符识别算法研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:zhangway77
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
钢琴音符识别是将音乐音频文件自动转换到数字音乐文件(MIDI)的过程,在钢琴辅助教学、乐谱自动记录等工作中具有重要作用。本课题主要研究钢琴音符识别的问题,即根据钢琴演奏所录制的音频文件,通过特定算法来确定某时段内的声音是由哪些单音符组合而成。根据实际应用需求和音符识别算法自身的限制,本课题将钢琴音符识别任务分为:实时稳健的单音符识别、非实时的多音符识别。对于单音符的识别,本课题侧重于实时性和稳健性两个方面。为此,本文提出采用局部能量的端点检测、多样本字典、多样本字典后处理等算法来提高单音符识别的实时性和稳健性;对于多音符的识别,由于无法通过单音符所采用的时域法,本课题转而采用模式识别法,即以多音符为基本建模单位,建立基于隐马尔可夫过程的多音符模型,进而重新编译HTK中相关模块来搭建多音符识别系统。本课题的主要内容包括以下几个方面:1)提取多音符音频文件的特征。在分析常用音频文件参数化原理的基础上,结合多音符音频的特性,对HTK中已有特征提取模块进行优化;2)判断确定音频中音符端点的位置。在分析常用端点检测的基础上,根据单音符、多音符不同的任务需求,分别为单音符识别系统和多音符识别系统设计或该写端点检测算法;3)研究基于HMM模型的语音识别原理,找出语音识别与多音符识别之间的共性与差异,建立多音符HMM声学模型和多音符间模型;4)根据MIDI文件以及对应的钢琴音频文件,构建训练、测试波形数据以及相应的标注文件。在此基础上,利用重新改写编译后的HTK相关工具对各个多音符隐马尔可夫模型进行初始化和训练,进而构建出完整的多音符识别系统。最后根据实验结果与对应标注文件之间的比对,对多音符系统进行性能评价。本文成功地实现了单音符的实时稳健识别、多音符的HMM建模以及多音符HMM模型识别。对于单音符的识别,与线性模型法相比,正确率提高了3%,达到了98%,且平均识别帧数达到4帧,即稳健性方面提高近2倍;对于多音符的识别,与时频域、统计法等相比,本文所采用得基于HMM的音符识别方法,识别率提高了近5%,提高了钢琴音乐转录实用化的可能性。
其他文献
航拍对地观测作为一项新兴技术,因其机动灵活的技术特点,在诸多领域发挥着越来越重要的作用,但近年来日益严峻的雾霾天气使其面临着新的挑战。而现有去雾霾算法无法直接应用
目的 探讨认知行为治疗联合药物治疗对强迫症(OCD)的临床治疗效果.方法 76例强迫症患者,随机分为常规组和治疗组,每组38例.常规组给予常规药物治疗,治疗组实施认知行为治疗联
本文通过对荣华二采区10
期刊
目的 分析对儿童生长激素缺乏症(GHD)和特发性矮小症(ISS)实施重组人生长激素(rhGH)治疗的临床疗效.方法 20例生长激素缺乏症患儿作为生长激素缺乏症组,20例特发性矮小症患儿
目的 研究亚临床甲状腺功能减退症(甲减)患者采用左旋甲状腺素治疗对其血脂水平的影响.方法 64例亚临床甲减患者,通过抽签方法分为实验组与参比组,各32例.实验组运用左旋甲状
图像识别技术是指运用图像处理、模式识别、智能优化算法及计算机相关技术对采集到的图像进行处理分析,得到信息量小但有用的图像进行识别的过程。本文所研究的图像识别系统主
目的 分析参苓白术散加减对慢性阻塞性肺疾病患者呼吸机待机时间的影响.方法 120例慢性阻塞性肺疾病患者作为研究对象,随机分为对照组和观察组,各60例.对照组患者接受机械通
趋化因子受体CXCR7(chemokine receptor 7)存在于多种恶性肿瘤中,通过与趋化因子CXCR4(chemokine receptor 4)相互作用、招募β-actin及内化趋化因子配体CXCL12(chemokine CX
目的 观察奥布卡因凝胶对小儿气管插管行扁桃体切除应激反应的效果.方法 82例行扁桃体切除术患儿,随机分为常规组及实验组,每组41例.常规组插入没有任何处理的气管导管,实验