音频内容分析与检索方法的研究和应用

来源 :北京大学 | 被引量 : 0次 | 上传用户:ylylyl123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
音频作为多媒体信息的一个重要组成部分,承载着很多资讯。随着多媒体技术的发展,音频资料的数据量不断膨胀。为了有效地利用这些信息,不仅需要合理的数据库系统来组织如此庞大的音频资料,还需要行之有效的内容分析和检索手段来为使用者提供最大的便利。因此,从90年代中开始,基于内容的音频分析和检索技术成为研究的热点和难点问题。本文以音频内容分析为基础,提出了一种基于分层相似度度量的音频检索方法,同时还分析了音频分类在新闻视频检索中的作用。本文的主要工作如下: 一种基于二分图最优匹配的音频片段检索方法。本文把音频片段的相似度度量分为两层:音频块的相似度度量和音频片段的相似度度量。在音频块的相似度度量阶段,音频片段中的数据根据特征变化被划分成一个个的音频块,同一音频块内的数据具有特征相似性和时间连续性。在音频片段的相似度度量阶段,首先,我们根据两个音频片段的块间相似度构建了一个完全二分图;然后,一种基于二分图最优匹配的算法被用来度量这两个音频片段间的相似度。基于分层的音频特征描述方法很好地保留了音频特征随时间变化的特性,并且在分割的基础上,实现了音频内容的结构化表述,从而提高音频片段检索的准确度,同时取得了较快的检索速度。实验对比结果证明了本文算法的有效性。 一种基于声音分类技术的新闻视频检索方法。基于目前语音非训练识别的困难,及视频检索的研究和应用价值,我们研究了如何运用语音分类技术进行新闻视频检索的问题。由于新闻视频中播音员的标准普通话,可以反映新闻视频的最主要内容,因此,我们采用声音分类的技术,自动分割出新闻视频中标准普通话的所有语音片段,然后运用语音识别系统,对分割出的标准普通话进行识别,得到反映新闻视频的最主要文本内容,从而实现从文本到视频的新闻检索。
其他文献
随着计算机技术的日益发展和计算机应用的不断普及,特别是计算机网络与无线通信的广泛使用,计算机网络与移动终端设备的结合已成为新一代通讯的发展方向,而互联网上Web信息的浩
当前,计算机信息处理技术深刻地影响了现代人的生产生活。以办公套件作为解决方案的办公自动化大幅度提高了工作效率,改变人们的办公方式。长期以来,中国一直将办公套件作为重要
复杂文本布局引擎是操作系统与大型应用软件不可缺少的重要组成部件。作为复杂文本布局引擎,无论是Windows的Uniscribe还是OpenOffice采用的ICULayout Engine,它们都对计算机正
阻碍互联网资源在世界范围内广泛共享的一个主要障碍是多语言问题。目前互联网上大多数的信息都以英文形式存在的,随着中文网络用户的不断增多,迫切需要一种能够帮助中文用户查
随着互联网的发展和普及,信息量正以指数规律飞速地增长。对于普通用户来说,Internet上的“信息迷航”和“信息过载”现象已经成为日益严重的问题。而文本摘要技术正是解决这一
计算机视觉通过对图像的理解来模拟人类视觉,具有应用广泛、发展前沿等特性。大数据时代,图像资源急剧膨胀,给人们工作生活带来了便利,但是从繁杂多变的图像资源中寻找有价值的图
移动数据库系统本质上是移动的、异构的、多数据库系统。移动计算环境具有一些新的特性:移动性、网络断接的频繁性、网络条件多样性、网络通信带宽和费用的非对称性:此外移动计
Ontology(本体)作为一种表达领域知识的手段,正在计算机科学的各个研究领域中受到越来越多的重视,并在许多领域得到广泛的应用。从自然语言处理的角度来看,构造领域Ontology的关
随着计算机的普及以及信息化办公的需要,将传统纸质媒介保存的图纸内容用计算机进行存储,已经是必不可少的操作。图纸扫描生成的计算机图像都是位图格式的,但是对于诸如地质
随着VoIP的普及,对VoIP监测的需求愈加迫切,目前一般的网络测量工具不能满足VoIP监测的需要。同时主动式测量的局限性也越来越明显,对于运营商和大中型企业来说,更需要一种被动式