论文部分内容阅读
近年来,随着信息技术的迅速发展,视频应用服务迅猛发展。丰富的数字视频资源既有来自传统电视媒体,也包括了互联网视频门户网站。如何对海量的视频进行有效的组织、管理、利用,基于视频内容的检索技术即CBVR(Content-based Video Retrieval)应运而生。内容检索主要基于视频的低层视觉特征,包括颜色、纹理、形状等静态特征,而人对视频描述的理解是基于语义层次的。视频语义的复杂性、模糊性以及主观性使得低层特征和高层语义之间存在着“语义鸿沟”,这一问题一直没有很好的解决。因此,为用户提供一个符合人的感知的视频标注系统,从而使低层特征与图像的高级语义联系关联更加密切,缩小低层特征与高层语义的“语义鸿沟”问题,成为视频检索研究的热点。目前自动视频语义标注方法多基于机器学习理论,采用全监督的标注方法取得了一些成效。然而,取得大量标注的视频样本是需要付出大量人工,相比而言,未标记的视频样本却是很容易得到。因此,通过少量标记样本和大量未标记样本进行分类的半监督学习方法称为研究的重点。半监督学习过程中,如何有效利用未标记样本的潜在信息称为问题的关键。本论文从理论和实践两方面进行论述。对视频的分析、特征提取、语义概念的高层映射等关键技术论述的基础上,介绍了基于机器学习技术的视频标注系统的实现。本文从MPEG-7描述标准的角度,研究了视频低层特征颜色、纹理和形状等特征的提取方法。基于半监督学习方法,介绍了机器学习中半监督学习在语义标注方面的应用。针对LS-SVM算法,提出了Tri-SVM协同训练算法。实验表明,Tri-SVM方法相比自训练方法和Co-Training方法在分类错误率上有较大幅度的提高。本论文构建了语义标注原型系统的设计框架,采用LS-SVM的Tri-Training算法在效率上和样本需求上提供了应用的可行性。系统具备手工标注模块,训练模块,自动标注模块。本原型系统为自动语义标注系统的实际应用提供了借鉴。