基于内容的音频检索的关键技术研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:wpf82011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着多媒体技术以及网络技术的迅速发展,网络上的信息资源日益丰富,信息检索技术产生了深刻的变革。人们已经不再满足于传统的基于文本的检索,而是需要一种能对视频、图像、音频等各种媒体进行快速检索的引擎。基于内容的音频检索技术(Content-Based Audio Retrieval:CBAR)应运而生。它从音频中直接提取语义线索,根据语义线索进行检索,从而把检索过程与媒体的语义直接联系在一起,使检索工作更加有效,适应性更强。本文首先介绍了CBAR的技术背景和发展过程;然后阐述了一个成功有效的CBAR应用的多种关键技术并提出了对现有音频分割分类方法的改进算法;同时给出了检索实验结果及分析;最后指出了系统的不足和未来的发展研究方向。稳健有效的音频分割与分类是系统检索的前提条件。传统的基于特征阈值的分割与分类方法采用相对简单的特征和前人的经验值,处理的分类问题比较单一。同时,特征阈值的选取也比较困难。本文采用基于高斯模型的分割算法,并给出一种新特征Mel-ICA,改进了该算法。该方法不需要采集样本,根据特征变化点来进行分割,取得了良好的分割结果。本文还给出一种基于阈值和模型的组合分类方法,结合了这两种方法的优点,同时采用小波变换和傅里叶变换提取音频特征,提高了分类的准确度。音频的特征和描述是系统的关键。本文结合采用时域、频域和时频域分析方法,从不同角度刻画音频信号的实质,构成音频信号的描述算子。音频检索采用示例音频查询方式(QBE),先使用最小生成树(MST)聚类方法形成关键帧,然后对同类型帧进行匹配比较,减少了计算的强度,大大提高了检索效率。实验结果表明本文方法能够较好地进行音频检索,取得了较好的性能。最后总结了本文的工作,并提出进一步的研究探索方向。
其他文献
随着医学影像诊断技术的发展,大量的医学图像数据随之产生。通常意义上的胸部影像学的主要研究对象就是肺部,它一般通过建立肺窗来观察相应肺部影像,而计算机断层图像(CT)则
工作流管理技术是实现企业业务过程重组、过程管理与过程自动化的核心技术。作为工作流技术的软件载体,工作流管理系统WfMS(Workflow ManagementSystem)的主要目标是通过调用有关信息资源与人力资源来协调业务流程中的各个环节,使之按照一定的顺序执行,从而达到业务过程自动化的目的。目前的工作流管理系统在可适应性和灵活性方面还有很大的不足,本文针对Synchroflow工作流管理系统提
随着PDA等智能终端的不断普及和互联网的飞速发展,利用手机或PDA等智能终端浏览网页、上网购物越来越成为引领现代人生活的时代潮流,人们在充分享受着互联网所带来的方便和高
近年来,随着科学技术日新月异的发展,计算机向着高性能、微型化方向发展的速度也越来越快。半导体技术的提高和嵌入式技术的应用,使得传统意义上的计算机已缩小至板级、芯片
1990年12月25日Web上线,1993年3月15日图形浏览器诞生,人们由此开始彻底改变了网上查阅信息、获取资料的习惯,Web已经成为人们获取信息的一条重要途径。由于Web页面的日益增加,获
软件测试在整个软件开发过程中占有非常重要的地位,是保证软件质量、提高软件可靠性的关键。随着软件设计技术的发展、软件规模的增加、软件开发周期的缩短、软件测试工作量
随着数据库技术的迅速发展及其广泛应用,在数据库中积累的数据量越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够在已有的大量数据的基础上进行科学研究、商业决
学位
随着网络技术的发展,以数字形式存储的文本数量出现了爆炸式的增长。为有效地组织它们以满足需求,文本聚类技术应运而生。传统的文本聚类技术,首先要利用向量空间模型(VSM)将
工作流就是一系列相互衔接、自动进行的业务活动或任务,而工作流模型就是对现实世界中的业务流程的准确描述,工作流过程建模是工作流技术应用的重要环节。UML是一种通用的可视