论文部分内容阅读
随着互联网的普及,网络上的音乐信息成千上万,如何在最短时间内筛选出满足用户需求的音乐,成为现代生活中亟待解决的问题。于是,基于内容的音乐信息检索技术成为信息检索领域至关重要的技术,音乐流派自动分类成为近年来研究的热点之一。本文将听觉图像引入音乐流派自动分类的研究中,采用听觉图像模型,设计滤波器等模拟人耳耳蜗的结构功能,将一维音频信号转换为二维听觉图像。然后,对不同音乐流派的听觉图像进行尺度不变特征转换(SIFT)及空间金字塔匹配(SPM),提取不同流派听觉图像的纹理特征。其中,尺度不变特征变换可以提取不同空间位置上听觉图像灰度值相对位置、大小关系和梯度方向信息,能够更加全面的描述图像局部特征;而空间金字塔匹配方法在3个不同层次上将稀疏化的听觉图像局部特征以不同刻度整合起来,表征听觉图像在不同层次上的全局特征。基于听觉图像的特征向量是高维度的、稀疏化的向量,本文分类方法选取在音乐流派自动分类中效果较明显的K-最近邻分类器和支持向量机。不同k值的K-最近邻结点算法和不同核函数的支持向量机构成不同的分类器的分类结果不同,比较可知,线性支持向量机在本文系统中分类效果优于K-最近邻分类器和其他核函数的支持向量机。比同样基于人耳耳蜗结构提取的MFCC特征分类正确率提高15%;比增加了模糊映射的音色特征集分类正确率高6%左右;与同样从图像角度出发,分析MFCC频谱图和短时傅里叶变换频谱图相比,分类正确率也有所提高。