论文部分内容阅读
在当今的数字信息时代,多媒体信息处理技术的日益成熟,计算机处理能力和网络速度的快速提高,使包含了图像、视频、音频等越来越多的数字化多媒体信息开始进入人们的日常生活,随之而来的对数字化多媒体信息进行分析和查找的需求也越来越迫切。因此,基于内容的音视频处理和检索已成为近年来多媒体处理、信息检索以及数据管理研究领域的重要课题之一。现有的基于内容的多媒体检索系统多针对视频图像内容的转换进行分类分析,而音频往往能够提供关于内容场景变化的辅助信息,从而成为现在多媒体检索系统中不可或缺的重要组成部分。而原始的音频数据是一种非语义符号表示和非结构化的二进制流,缺乏内容语义的描述和结构化的组织,因此,选择能够代表不同类别音频信息的特征,以及选择合适的音频分类系统成为该方面上的研究重点。本文提出了一种基于支持向量机的层次化新闻音频分类系统,由语音/非语音/静音分类器、现场报道/纯语音分类器、男性声音/女性声音分类器、音乐/噪声分类器组成,结合新闻视频语义特点,将音频信息分为男性声音、女性声音、现场报道、噪音、音乐、静音六种不同类别。在音频特征选择方面,本文选用了包括美尔倒谱系数、频谱能量分布、子带能量分布、频谱质心、高过零率比例,低短时能量比率,谱通量,静音帧比率等音频特征,并结合单独最优特征组合和序列前向选择方法对不同分类器进行特征向量选择。在分类器构造方面,由于支持向量机很好地解决了小样本学习问题,具有很好的泛化能力,本文选用支持向量机作为分类器,并针对多类分类问题,提出了决策树的层次化音频分类系统结构。实验结果表明,本文提出的音频分类算法对语音/非语音/静音得到了接近98%的分类精度;现场报道/纯语音近92%的分类精度;男性声音/女性声音95%的分类精度以及音乐/噪声近98%的分类精度,能够达到预期分类要求。