论文部分内容阅读
近年来,随着多媒体视频数据的急剧增长,为了便于对海量的视频数据进行语义级别的检索与浏览,基于语义概念的视频检索技术已成为研究的新热点。而在基于语义概念的视频检索研究中所涉及到的重点和难点是如何跨越视频低层特征和人类高层理解之间的语义鸿沟。目前,广泛地认为视频语义自动标注技术是解决这一难点的有效方法。因此,研究出一种高效准确的视频语义自动标注方法显得至关重要。
本文首先简要地综述了本课题研究的背景和意义,然后详细地分析了视频自动语义标注过程中有关主要工作的国内外研究现状。在此基础上,结合超图理论知识,提出了基于谱超图聚类的关键帧提取方法、视频语义概念时间相关性的时序概率超图表示法和基于时序概率超图模型的视频多语义自动标注方法,主要工作描述如下:
(1)提出了一种基于谱超图聚类的关键帧提取方法。通过引入超图理论,提出了一种新的基于谱超图聚类的关键帧提取算法。该算法视镜头中每帧图像为超图的一个顶点,根据帧图像间的相似度构造超边,然后完成帧超图的构建,最后利用基于谱超图的聚类方法实现镜头关键帧的提取。实验表明,该方法可提高视频关键帧提取的有效性和准确性。
(2)提出了一种视频语义概念时间相关性的时序概率超图表示法。利用视频语义概念时间相关性可以进一步提高视频标注的准确性,本文提出了时序概率超图模型用来表达视频的这一特性。该模型是对超图模型的一种泛化:不仅能够表示多个顶点之间的局部聚合信息、各顶点属于它所对应的时序概率超边的概率,还能够为顶点间的时间序列关系建模。
(3)提出了一种基于时序概率超图模型的视频多语义自动标注方法。首先利用本文所提出的时序概率超图模型,将每个镜头视为一个顶点,根据镜头间的相似度和时序关系构建时序概率超边;然后完成镜头时序概率超图的构建;最后利用基于时序概率超图的镜头多标签半监督分类学习算法完成对未标注视频镜头的多语义概念自动标注。标注中同时有效地解决了已标注视频数据不足和视频的多语义标注问题。实验结果表明了该方法可提高视频镜头语义标注的性能。
(4)采用面向对象和模块化的软件系统设计思想,设计并实现了一个视频语义标注与检索原型系统。该系统实现了视频多语义的自动标注和基于语义概念的视频检索等功能,验证了本文所提出方法的有效性和可用性。