论文部分内容阅读
随着计算机技术和数字媒体技术的飞速发展,在科技浪潮的驱动下,单纯地依靠文本获取信息的时代一去不复返,取而代之的是以音频、图像、视频等多媒体数据为主的新时代。其中,视频数据占据一半以上,如何从海量视频数据中高速有效地检索出感兴趣的内容,成为了一个亟待解决的问题。2010年,旨在快捷准确地从视频中查找出目标数据的实例检索(Instance Search,简称INS)登上国际权威评测机构TRECVID的大舞台。2010-2015年,TRECVID的INS关注于单个特定目标的检索,国内外研究机构积极参与评测并取得了?分不错的成绩。2016年,INS提出了联合特定人物和特定场景的视频实例检索,旨在海量视频中找到某一个人出现在某一特定场景下的视频片段。自联合特定人物和特定场景的视频实例检索提出以来,已经有研究学者展开了相关研究,并取得了长足的进展。然而,当前的联合特定人物和特定场景的视频实例检索方法还有以下不足:(1)单一的视觉特征不鲁棒。实现特定人物和特定场景的视频实例检索都是基于查询实例的视觉特征,然而目标场景存在角度变换、光照变化、遮挡等现象,目标人物存在姿态变换、服装样貌变化等现象,这使得传统依靠单一的视觉特征的目标检索变得?分困难,难以满足复杂应用场景的检索需求。(2)人物和场景融合效果不佳。在得到人物和场景检索结果后,大部分方法通常是融合二者的结果得到联合特定人物和特定场景的检索结果。然而,人物和场景的检索结果是相互影响的:当摄像头聚焦于人物身上时,场景就会变得模糊或被大面积遮挡,当摄像头采用广角镜头时,场景的信息?分丰富但人物变得小导致人物信息不足。这种情况下,直接融合人物和场景的检索结果取得的效果不好。(3)当前联合特定人物和特定场景的检索系统少且应用有限。视频数据量非常大,然而其中满足要求的视频非常少,从海量视频中找出这些待查目标非常不易,设计并实现高效的联合特定人物和特定场景的视频检索系统,具有重要应用意义。针对上述问题,本文拟开展联合特定人物和特定场景的视频实例检索方法研究,本文的主要研究内容如下:(1)基于特征综合表达的人物和场景检索方法由于视频数据集中的人物和场景存在视角变化、遮挡等情况,图像视觉特征也因此受到影响。为此,本文提出一种综合优化的特征表达方法,通过搜集不同姿态下人物面部状态和组合不同角度的场景特征,综合利用不同的实现技术来构建更加鲁棒的人物和场景特征。尤其是对于场景来说,一方面,关注于特写镜头下的场景,我们采用基于BoW模型的特定目标检索,通过场景标识物间接检索到场景,另一方面,关注于广角镜头下的场景,我们采用基于CNN模型的图像特征直接检索场景,二者的有机组合有效地提升了场景检索的准确率。(2)基于近邻加权排序优化的视频实例检索方法目前大多方法在融合人物和场景的检索结果时,往往采用相乘相似度分数等类似直接融合的方式,然而我们发现人物和场景常常处于一种相互抑制的境地,二者的相似度分数并不同时高,基于直接融合方式的检索效果并不理想。为此,本文提出基于近邻加权排序优化的视频实例检索方法,研究基于近邻镜头的融合优化方法,通过一种基于无监督度量学习的优化排序方法,实现连续镜头间自动地排序优化。同时,考虑到重排优化后结果和原始结果的综合作用,将二者以加权的方式组合起来实现最大程度的优化。实验结果显示该方法有效优化了排序结果。(3)联合特定人物与特定场景的视频实例检索系统的设计与实现基于本文所提出的方法,我们设计并实现了一个可行的联合特定人物和特定场景的视频实例检索系统,能有效地实现特定人物、特定场景、特定人物出现在特定场景中的镜头查找,对于系统排序结果能展示及保存,可供后续分析利用,具有一定的实用意义。综上所述,本文关注于联合特定人物和特定场景的视频实例检索方法研究。通过分析视频中人物和场景检索存在的视角变化、遮挡等现象,以及连续镜头之间的稳定性,从优化特征表达和利用近邻镜头之间的相似性两个方面提出了解决方案,即基于特征综合表达的人物和场景检索方法、基于近邻加权排序优化的视频实例检索方法。此外,基于本文的相关算法及开源技术,设计并实现了联合特定人物和特定场景的视频实例检索系统,能够有效进行电视剧中的人物、场景检索。