论文部分内容阅读
乐器音色的分类研究是探索乐器音色本质的基础。由于乐器发声机理的差别、音色衡量的不确定性以及人类对人耳听觉感知过程认识的有限性,使得乐器音色的研究处于一个瓶颈阶段。本文主要从时域、频域和倒频域三个方面对乐器单音的音色特征进行研究。时域方面,通过对乐器单音时域包络的研究,将一个单音的时域包络分成五段并分别计算每段占整个单音长度的比值作为时域特征——时域包络分段比。实验结果表明,在乐器家族内,该特征的分类结果较好。频域方面,通过短时傅里叶变换(STFT)、常Q变换(CQT)和修正的常Q变换(MCQT)得到三种不同的频谱,然后分别计算三种频谱的谱宽、谱偏态谱峰态、谱质心、谱滚降和谱通量的均值和标准差作为频域特征参数。实验结果表明,CQT谱的频域特征参数组合总体的分类结果最好,而MCQT谱的频域特征参数组合在乐器家族内的分类结果最好。倒频域方面,共得到五种倒频域特征。分别基于STFT谱、CQT谱和MCQT谱计算相应的实倒谱,再分别将STFT谱和CQT谱结合听觉感知特性,计算了基于STFT的Mel倒谱系数(MFCC)和基于CQT的MFCC。从各倒频域特征取某些维数在相同乐器不同音高以及不同乐器相同音高间的相似性分析、各倒频域特征取不同维数用来分类的结果两个角度得出基于STFT的实倒谱第1~25维、基于CQT的实倒谱第1~7维、基于STFT的MFCC第1~12维和基于CQT的MFCC第1~12维较有利于音色分类,而基于MCQT的实倒谱的高维部分和低维部分区分音色的能力差别不明显。将三种频谱和各种倒频域特征分别用来分类,得到基于STFT的MFCC分类错误率最低。把时域包络分段比分别与各特征组合用来分类,分类结果取得了较大的改善。其中,加入时域包络分段比后,基于MCQT的实倒谱和MCQT对数谱分类结果最好。