论文部分内容阅读
视频理解是研究视频图像并进行计算机解释,实现人类视觉理解外部世界的一门学科。其主要任务是对视频进行分割、识别,并进一步获取有用信息,最后再将这些有用信息与应用的语义环境进行关联。由于视频结构复杂、语义信息丰富,因此视频的理解一直是视频相关分析中的重点和难点。在目前检索、标注、分类等技术研究中,人们往往从视频/图像所描述的对象、场景或事件等高层次概念和语义上来建立对视频相似性的理解。然而,计算机对视频相似性的理解则是在诸如颜色、纹理、形状等底层特征的基础之上进行度量。由于人和计算机对视频相似性的判断依据存在差异,造成人所理解的“语义相似”与计算机所理解的“视觉相似”之间产生“语义鸿沟”。合理选择视频的属性特征是视频理解的关键步骤,也是后续各类应用研究的关键。简洁有效的视频表征不仅有利于视频的压缩存储,而且有利于视频的高效查找和管理。综上所述,如何根据视频的特有知识有效填补视频理解中存在的“语义鸿沟”,对视频的有效管理和分析应用具有重要的研究意义。本文旨在进一步缩小视频理解中存在的“语义鸿沟”,重点研究视频的有效表征及其在相关领域中的应用。首先,研究了基于全局特征的表征方法及应用;其次,基于局部特征提出一种多视角多层次并且融合语义信息的视频表征模型;最后针对特殊视频给出了融合领域知识的表征模型及其相关应用。本文的主要工作和创新之处在于以下几个方面:1.提出一种在压缩变换域中基于全局特征的视频帧加权表征模型,并在此基础上提出一种层次化(帧-镜头-视频)的相似性度量方式。此外,进一步探讨层次化度量模型在视频例子检索中的应用。2.提出一种多层次多视角的主题表征模型(Multi-Layer Multi-View TopicModel,mlmv-LDA)。针对全局特征在视频帧表征时的不足,进一步寻求面向视频图像局部特征的多表达域、多视角、多种特征层次下的解决途径,建立视频元数据与各种应用需求的桥梁,有效填补了计算机和人对视频理解时存在的“语义鸿沟”。提出的表征模型融合了建立在局部特征描述子之上的若干种中层特征以及高层特征,并结合主题模型中隐含狄利克雷分布(Latent Dirichlet Allocation LDA)来学习每个视频的隐含主题分布,以对底层视觉特征和高层语义特征进行有效融合。3.提出一种针对广告视频的带后验概率的主题表征模型(posterior probabilityinvolved in LDA,pp LDA)。针对特定视频的表征问题,本文以广告视频作为特定的研究对象,将广告视频中包含的品牌信息(Logo)和高层对象之间的共现概率信息整合到隐含狄利克雷分布(Latent Dirichelt Allocation,LDA)中进行学习,这是一种读特定视频领域知识和主题学习模型的有效融合。最后,还进一步探究了所提出的表征模型在分类中的应用。4.提出一种面向视频高层语义表征的多标签学习框(Directed ProbabilityLabel Graph,DPLG)。该学习框架主要针对含有特定对象或标记的视频对象,是以广告视频作为该类视频的典型代表,结合图理论构建起来的。DPLG充分考虑了视频中不同标签之间的相关性,解决了该类视频的标注问题