论文部分内容阅读
互联网用户所创造的“内容”正在迅猛增长,从不同渠道涌现的图像、视频等不同类型的媒体数据以及用户信息更加紧密的结合。它们正在以一种新的形式,更为形象综合地表达语义、事件和主题。本文针对基于内容的视频检索技术呈现出的特点进行深入研究,并在图像语义分割、图像特征提取和图像排序等方面提出了改进方法。本文首先介绍了基于关键字的视频检索方法和基于内容的视频检索方法,重点阐述了图像特征提取在视频检索方面的重要性,以及视频检索的整体框架流程。第三章阐述了语义分割在视频处理中的重要意义,并介绍了几种典型的语义分割方法,在此基础上,本文提出了一种基于多特征融合的聚合决策森林的语义分割算法,首先从超像素块中提取出2D低级语义特征和3D空间特征,并将特征向量融合为高维向量。融合后的高维度的特征向量相对于单独的特征向量来说鲁棒性更高;然后我们提出了一种多特征融合的聚合决策森林算法,实验证明了该方法可以较好地解决复杂街景的语义分割问题。第四章首先介绍了多种典型的显著性特征,包括基于颜色直方图的显著性特征和基于区域对比度的显著性特征等,在此基础上,本文提出了一种显著性重要特征,最后融合多种有效特征构建高维特征向量,该特征能够有效地表示图像的内容。第五章首先讲述了排序学习算法和迁移学习算法的基本概念,然后将跨域排序学习算法应用到视频检索中来。该算法克服了已有算法中仅利用源域数据进行建模的缺点,通过源域中已有标记信息的数据和目标域中没有标记信息的数据,估算出目标域中的正样本均值,训练出更加鲁棒的自适应跨域排序模型,较好地解决了多摄像头跨域复杂场景下的行人检索问题。