基于深度学习的乐器分类方法研究

来源 :兰州财经大学 | 被引量 : 0次 | 上传用户:woshirenaaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于深度学习的乐器分类问题是深度学习在音乐信息检索方向上的应用,而音乐信息检索又是语音识别领域近年来备受关注的研究热点。首先,介绍音乐分类及深度学习领域的基本理论知识,为混合模型的搭建做好理论铺垫。其次,对用于构建深度学习混合模型的深度自编码器(DAE)与深度玻尔兹曼机(DBM)进行重点介绍,包括模型的基本结构、训练算法、性能特征及研究现状等。基于DAE的数据扩充能力与DBM的数据投影能力,构建混合深度学习模型DA-BM;通过在参数调整过程中加入动量项的方式缓解模型训练中的震荡现象,同时引入平均场来平滑训练数据中的孤立点,提升模型的鲁棒性。DA-BM在乐器分类任务中充当特征提取器,分别在模型顶层设置SVM与Softmax分类器,实现对乐器音频数据的分类。另外,基于PLP系数能够模拟人耳听觉特性的优势,结合谱通量特征能够反映音乐信号中相邻两帧间能量变化关系的特性,提出一种新的混合特征量。最后,通过仿真实验对本文提出的DA-BM混合模型以及混合特征量进行有效性验证。将DA-BM模型应用于5类单乐器音频数据的分类任务,并与传统音乐分类方法及单一深度学习模型进行性能比较。实验结果表明,在同一测试集上,混合模型DA-BM的分类准确率高于深度学习单模型DAE与DBM。同时,DA-BM、DAE、DBM三种深度学习模型在乐器分类任务中的分类性能明显优于浅层模型SVM,分类准确率提升超过10%。另外,提取音乐数据的能量特征、MFCC系数、PLP系数并构建基于PLP系数和谱通量的混合特征。分别采用上述特征作为DA-BM模型的输入,对比不同特征量的性能。实验结果表明混合特征量表现最优异,分类准确率达到91.25%,证明本文提出的混合特征量具有更强的数据表达能力。
其他文献
“……西方人所好奇的传统根深蒂固,他们热衷于指明突变与变化发生的所在。他们的意图似乎在于学会缩短创造的过程并使之更加便捷。这种勃勃雄心可能造成一种结果,那就是习惯
期刊