论文部分内容阅读
随着计算机技术、网络技术和通讯技术的不断发展,图像、视频、音频等多媒体数据已逐渐成为信息处理领域中主要的信息媒体形式,其中音频信息占有很重要的地位。 原始音频数据是一种非语义符号表示和非结构化的二进制流,缺乏内容语义的描述和结构化的组织,给音频信息的深度处理和分析工作带来了很大的困难。如何提取音频中的结构化信息和内容语义是音频信息深度处理、基于内容检索和辅助视频分析等应用的关键。音频分类与分割技术是解决这一问题的关键技术,是音频结构化的基础。本文在认真总结前人研究成果的基础上,着重解决了音频结构分析、音频特征分析与抽取、基于SVM的音频分类器和基于熵和动态规划算法的音频分割方法这四个方面的问题。 本文工作和研究成果主要包括以下几个方面: (1) 深入考察了音频信息的主要来源,在此基础上分析了音频的语义内容,明确了音频信息中主要的音频类型,据此将音频分为:纯语音,含背景音的语音,音乐,环境音,噪音,静音六类。定义了不同层次的音频结构单元,在此基础上提出了一个新的层次化音频结构分析框架。音频分类本质上是一个模式识别过程,根据模式识别理论,设计了音频分类与分割的技术流程,并对其中所涉及到的关键技术进行了探讨。 (2) 从帧层次上和clip层次上深入研究了不同类别音频之间的区别性特征。针对分类中存在的误分类情况,提出了四个新的特征——静音比率、High-ZCR比率、Low-Frequency Energy比率和频谱流量。深入研究了抽取的特征在本文提出的基于SVM的分类器中的分类性能。 (3) 深入研究了SVM的训练算法。SVM的训练算法是实现基于SVM分类器的核心问题,通过研究比较了不同训练算法的优缺点,确定了性能最优的一种训练算法,为基于SVM分类器的设计实现提供了坚实的基础。分析了传统的基于规则的分类器的缺点,结合决策树的思想提出了一种SVM决策树方法,利用该方法构造了一种适合于音频分类的基于SVM决策树的多类分类器。并结合实际分类问题,综合基于规则的和基于SVM的分类器的优点,设计实现了一个混合音频分类器。 (4) 分析了传统的基于滑窗的分割算法的缺点,提出了一种基于熵和动态规划算法的动态音频分割方法,通过实验分析了该方法的分割性能。