论文部分内容阅读
如何有效地对海量数据尤其是诸如音频之类的多媒体数据进行分析、存储和检索是一个亟待解决的问题。由于原始音频数据的非结构化特性,音频检索受到极大的限制。相对于日益成熟的图像与视频检索,音频检索相对滞后。基于内容的音频检索已成为多媒体检索技术的研究热点。本文对基于内容的音频检索的关键技术展开分析,主要在以下几个方面开展了工作: 1、音频信号特征提取与表达。音频检索是多特征组合检索,对音频信号的感知特征如响度、亮度、音调等;物理特征如过零率、Mel倒谱系数、线性预测系数等进行了分析,不同的特征组合应用于不同类型的音频检索。 2、音频分割与识别。将音频分层分割算法改进为基于模板的音频分割算法,利用隐马尔可夫模型的良好的随机时序性以及不依赖于具体的应用阈值的优势,使分割识别准确率有较大提高。随着MPEG压缩格式成为多媒体编码主流,研究了直接对MP3格式的音频信号提取特征,基于MPEG压缩域特征音频分割。 3、基于内容的音频检索。从音频示例查询的角度,针对不同的音频例子表示方法,分别研究了基于隐马尔可夫模型分类模板的音频例子检索算法,和基于模糊聚类音频例子检索算法。针对音乐(歌曲)检索独有特性,研究了基于哼唱的音乐(歌曲)检索,实验证明,此算法有一定的准确性。 本文设计实现了一个基于内容的音频检索原型系统,是具有良好扩展性的系统,实现了高速、有效的音频检索。最后对基于内容的音频检索系统的发展趋势研究热点进行了展望。