论文部分内容阅读
音频作为多媒体信息的一个重要组成部分,承载着很多资讯。随着多媒体技术的发展,音频资料的数据量不断膨胀。为了有效地利用这些信息,不仅需要合理的数据库系统来组织如此庞大的音频资料,还需要行之有效的内容分析和检索手段来为使用者提供最大的便利。因此,从90年代中开始,基于内容的音频分析和检索技术成为研究的热点和难点问题。本文以音频内容分析为基础,提出了一种基于分层相似度度量的音频检索方法,同时还分析了音频分类在新闻视频检索中的作用。本文的主要工作如下:
一种基于二分图最优匹配的音频片段检索方法。本文把音频片段的相似度度量分为两层:音频块的相似度度量和音频片段的相似度度量。在音频块的相似度度量阶段,音频片段中的数据根据特征变化被划分成一个个的音频块,同一音频块内的数据具有特征相似性和时间连续性。在音频片段的相似度度量阶段,首先,我们根据两个音频片段的块间相似度构建了一个完全二分图;然后,一种基于二分图最优匹配的算法被用来度量这两个音频片段间的相似度。基于分层的音频特征描述方法很好地保留了音频特征随时间变化的特性,并且在分割的基础上,实现了音频内容的结构化表述,从而提高音频片段检索的准确度,同时取得了较快的检索速度。实验对比结果证明了本文算法的有效性。
一种基于声音分类技术的新闻视频检索方法。基于目前语音非训练识别的困难,及视频检索的研究和应用价值,我们研究了如何运用语音分类技术进行新闻视频检索的问题。由于新闻视频中播音员的标准普通话,可以反映新闻视频的最主要内容,因此,我们采用声音分类的技术,自动分割出新闻视频中标准普通话的所有语音片段,然后运用语音识别系统,对分割出的标准普通话进行识别,得到反映新闻视频的最主要文本内容,从而实现从文本到视频的新闻检索。