论文部分内容阅读
随着计算机网络和存储技术的飞速发展,视频等多媒体数据呈几何级数增长,如何从浩如烟海的数据资源中实现视频数据的检索成为人们关注的问题。现有的视频检索系统技术多是基于低层特征的检索,与人类所能理解的高层语义概念相去甚远,这严重地影响视频检索的实际效果。如何使计算机能自动挖掘视频中的语义信息,并有效地利用高层特征进行视频检索,已经成为多媒体研究领域中一个亟待解决的问题。由于视频语义内容的复杂性、模糊性以及主观性使得低层视觉特征和高层语义之间存在着“语义鸿沟”。如何跨越语义鸿沟,目前还不能完全解决,实验表明,如果能从视频语义中提取出符合人类认知的高层语义,用语义作为描述视频信息的特征进行检索,将成为解决低层特征到高层语义间鸿沟的有效途径。现有的视频语义提取的方法主要有两种:基于规则的方法和基于统计学理论的方法。基于规则的方法是利用领域知识来定义感知规则,并以此检测视频中出现的语义概念。由于其对于领域知识的依赖性很强,所以此类方法很难扩展到其它领域中去。基于统计学理论的方法主要是指概率统计学习方法,由于其与相关知识领域无关,通过训练样本语义的概率关系有效弥补了低层特征到高层语义之间的语义鸿沟。本文主要研究基于统计学理论的方法,希望通过从视频中提取符合人类认知的高级语义信息,即为视频关键帧作语义标注,以此来尝试跨越或缩小“语义鸿沟”。为此,本文首先从“语义鸿沟”产生的原因出发,介绍了当前解决这一问题的思路和方法;介绍了语义提取研究的相关理论;描述了一些经典算法的原理、步骤和实验过程,包括K临近算法、朴素贝叶斯算法、高斯核函数以及支持向量机等的算法,通过分析对比了各种算法在视频语义提取应用中的优缺点。在此基础上,提出了考虑语义重要性的SID算法,并着重介绍了SID算法提出的背景,目的及算法描述。通过实验表明,SID算法明显优于上述提到的其它算法,在视频语义提取上取得了较好的效果。