论文部分内容阅读
随着通信技术和计算机技术,尤其是Internet的飞速发展,各种各样的信息成几何级数增长,人们也更有机会接触到大量的多媒体内容,如图像、视频、音频等。这些多媒体数据已经逐渐成为信息处理领域中主要的信息媒体形式。但是随着数据量的快速增长,如何自动的对这些内容进行管理就成为了一个突出的问题。特别是对于身边日益繁多的海量音乐信息,人们要求有快速高效的方法对它们进行分类管理(根据音乐流派或演唱者等)。音乐的自动分类实质是语音信号识别问题,一直以来都得到了人们的重视和研究。尽管随着语音识别技术的发展,许多新的方法都被应用到音乐分类这一领域来,却由于音乐的多样性和不确定性,使其离大规模的实际应用尚有一段距离。目前大部分的音频音乐分类算法都包含了两个阶段:特征提取阶段和分类阶段。许多音乐特征可用于实现这一算法,包括时域的短时能量、短时过零率等,频域的带宽、谱质心等,还有基于听觉感受的MFCC(Mel-frequency cepstral coefficients)系数等。而分类算法可利用模式识别和模式分类中的大量现存的高效算法,例如CMM(高斯混合模型)[37]、NN(神经网络)、HMM(隐马尔可夫模型) [10][12][21][23][24]等等。面对如此多的特征和分类算法,如何组合它们来得到较好的分类精确率,是否有可能对某些特征进行预处理来提高分类精确率,或是根据音乐分类的特殊性对分类器进行优化来取得高精确率?为了解决这个问题,本文在大量现存的音乐分类算法的基础上,提出了一种与支持向量机集成技术相结合的新的音乐分类算法及结构。自Vapnik于1995年提出支持向量机(Support Vector Machines,SVM)后,支持向量机已经在很多领域得到了成功的应用。它以统计学习理论(Statistical Learning Theory,SLT)为基础,具有简洁的数学形式、标准的训练方法和良好的泛化性能,已广泛应用于模式识别、函数估计和时间序列预测及分类问题中。但在SVM的研究中仍然存在许多问题尚待解决,例如:模型选择问题、针对大规模训练集的学习效率问题等。目前,在SVM的学习训练过程中,几乎所有研究都以单个支持向量机作为训练器,关于SVM的多学习器学习方法研究甚少。集成学习(Ensemble Leaming)技术作为一种有效的多学习器学习方法已获得许多有价值的结果,将集成学习技术引入到SVM学习中,可以更好地提高SVM的泛化能力,因此,基于集成学习的SVM学习方法研究成为目前SVM研究中一个重要的方向。本文系统地研究了SVM集成学习方法及音乐分类的原理、方法与技术,对现有的支持向量机集成算法进行了改进,并尝试把SVM集成应用于音乐分类的研究,最后对提出的算法进行了大量的数值实验和性能测试,实验中对不同的分类器针对不同特征集进行分类的结果进行了仿真,仿真结果不但验证了使用SVM集成后音乐分类的最终精确度有了较大的提高,而且也显示了SVM在分类问题上相对于其它分类器的优势。