论文部分内容阅读
随着计算机技术与通信技术的飞速发展,网络上的多媒体数据成几何级数增长,歌曲是众多数据的一种,为了快速有效的组织这些数据,就需要有高效的方法对歌曲风格与歌手音质进行自动的分类。本文主要针对歌曲风格与歌手音质的分类方法进行了研究,主要有以下几个方面的工作。首先对歌曲风格与歌手音质研究中特征的提取方法进行了研究。提出了使用适合于对歌曲处理的CQT(Constant Q Transform)特征和节奏方面的节拍直方图特征对歌曲风格进行分类,并对二者的特征提取方法进行了深入的研究。还研究了MFCC(Mel-Frequency Cepstrum Coefficients)及其一阶二阶差分、LPCC(Linear Prediction Cepstral Coefficients)及其一阶二阶差分、短时能量以及共振峰等广泛使用的特征。其次提出歌曲风格向量的表示方法以及用雷达图提供可视化分析。根据高斯混合模型的似然比建立歌曲风格向量,进而绘出雷达图,对类别之间的混识程度和双重风格歌曲的研究提供可视化分析。最后建立歌曲风格与歌手音质识别系统,对歌曲风格与歌手音质进行了深入的研究。歌曲风格方面,既研究了单一风格歌曲,又研究了双重风格歌曲,通过比较短时音质特征的识别率大小,找出适合于歌曲风格分类的短时特征,进而与长时特征进行融合,通过长短时特征的融合,取得了不错的识别率。还讨论了高斯混合数的变化对识别率的影响,CQT作用于歌曲风格分类的效果。歌手音质方面,研究了MFCC及其一阶二阶差分和前四共振峰频率的分类效果。