音频分类与分割技术研究

被引量 : 0次 | 上传用户:fresco_xp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术、网络技术和通讯技术的不断发展,图像、视频、音频等多媒体数据已逐渐成为信息处理领域中主要的信息媒体形式,其中音频信息占有很重要的地位。 原始音频数据是一种非语义符号表示和非结构化的二进制流,缺乏内容语义的描述和结构化的组织,给音频信息的深度处理和分析工作带来了很大的困难。如何提取音频中的结构化信息和内容语义是音频信息深度处理、基于内容检索和辅助视频分析等应用的关键。音频分类与分割技术是解决这一问题的关键技术,是音频结构化的基础。本文在认真总结前人研究成果的基础上,着重解决了音频结构分析、音频特征分析与抽取、基于SVM的音频分类器和基于熵和动态规划算法的音频分割方法这四个方面的问题。 本文工作和研究成果主要包括以下几个方面: (1) 深入考察了音频信息的主要来源,在此基础上分析了音频的语义内容,明确了音频信息中主要的音频类型,据此将音频分为:纯语音,含背景音的语音,音乐,环境音,噪音,静音六类。定义了不同层次的音频结构单元,在此基础上提出了一个新的层次化音频结构分析框架。音频分类本质上是一个模式识别过程,根据模式识别理论,设计了音频分类与分割的技术流程,并对其中所涉及到的关键技术进行了探讨。 (2) 从帧层次上和clip层次上深入研究了不同类别音频之间的区别性特征。针对分类中存在的误分类情况,提出了四个新的特征——静音比率、High-ZCR比率、Low-Frequency Energy比率和频谱流量。深入研究了抽取的特征在本文提出的基于SVM的分类器中的分类性能。 (3) 深入研究了SVM的训练算法。SVM的训练算法是实现基于SVM分类器的核心问题,通过研究比较了不同训练算法的优缺点,确定了性能最优的一种训练算法,为基于SVM分类器的设计实现提供了坚实的基础。分析了传统的基于规则的分类器的缺点,结合决策树的思想提出了一种SVM决策树方法,利用该方法构造了一种适合于音频分类的基于SVM决策树的多类分类器。并结合实际分类问题,综合基于规则的和基于SVM的分类器的优点,设计实现了一个混合音频分类器。 (4) 分析了传统的基于滑窗的分割算法的缺点,提出了一种基于熵和动态规划算法的动态音频分割方法,通过实验分析了该方法的分割性能。
其他文献
本论文分两个部分:第一部分:含1,3,4-噁二唑环和schiff碱结构的共轭聚合物的合成共轭聚合物因具有一系列独特的物理化学性能,已广泛应用于发光二极管(LED)和发光电池等功能材料和分
国际标准化组织在2000版ISO9000族标准中,将质量持续改进确定为八项质量管理原则之一。质量持续改进管理系统,是企业质量系统中不可或缺的重要组成部分。本文在深入研究了质
在新媒体技术的影响下,危机传播覆盖了大众传播、组织传播、人际传播等多个领域,逐渐形成一个复杂多变的信息传播环境。面对新媒体带来的机遇和挑战,政府应尽快修正危机传播
《荒凉山庄》是英国最伟大的小说家查尔斯·狄更斯写作中期的一部小说,一度被认为是其最出色的作品。书中一个显著的特色就是狄更斯在写作中巧妙地挥洒了不同风格的好奇心。
本实验以原生纳米级的SiO2、ZnO、TiO2以及Al2O3为物料,首先系统地在直径为4cm的玻璃流化床中考察了它们的流态化行为,结果发现四种纳米颗粒在刚接通气源时都形成活塞,活塞破裂
结合大数据所带给城建档案建设的新时代现状,分析了大数据时代背景下城建档案所遇到的挑战,在此基础上,探讨了建立城建档案的云计算平台以及具体的应用问题,希望对于今后的城建档
随着汽车工业和交通运输业的高速发展,道路交通事故己成为全球性的公害,使得汽车交通事故再现的研究尤为迫切和必要。在交通事故中,汽车碰撞事故是最严重、危害最大的事故,它
动机是影响第二语言学习的一个重要因素,它不仅给学习者提供开始学习的诱因,还是促使其不断努力的源泉。学习策略的使用在学习中占有重要地位,它反映了学生的认知方式和学习
在现代电子战中,辐射源识别是电子情报侦察系统(ELINT)和电子支援系统(ESM)重要功能之一。随着电子技术的飞速发展,雷达信号的体制和调制样式变得越来越多样化,信号环境也日