论文部分内容阅读
近年来,随着视频监控网络的大规模建设和移动终端设备的加速普及,图像和视频数据呈现爆炸式增长。由于分析技术的缺乏,大量视觉数据成为“沉睡”在存储系统中的无用垃圾数据。为提高海量图像和视频的有用性,迫切需要研究图像与视频数据自动化分析与理解技术。自2012年以来深度学习极大推动了计算机视觉的发展,让许多视觉技术逐渐走向应用。然而现有方法往往只能针对简单化、低层次的视觉理解任务取得较好的效果,这极大限制了计算机视觉的进一步发展和应用。本文面向视频和图像分析需求,提出渐进学习的思想,重点探讨如何实现更高层次、更精细的视觉内容理解。从研究内容角度,本文关注更加精细的视觉理解任务,包括实例级别理解(instance-level understanding)、细粒度类别理解(fine-grained categorization)以及像素级别理解(pixel-level understanding)。从研究方法角度,本文提出渐进学习的思想,将单一模型难以捕获的细节内容和精细语义信息拆分到多个渐进阶段,并基于该思想提出一系列渐进模型以适应不同级别的精细视觉理解任务。本文的主要工作与创新如下:(1)本文提出了一套全新的深度学习框架,即深度渐进学习。为解决传统的单阶段深度学习框架无法有效关注物体细节特征的问题,所提出的深度渐进学习框架将任务拆分到多个渐进阶段,并在每一个阶段对数据的细节特征进行精细建模。本文定义了深度渐进学习的三个重要特征,即可配置性、伸缩性与精细性,基于以上三条特征,本文设计了一套完整的深度渐进学习研究框架,并将其应用到一系列的计算机视觉任务中。结果表明,所提出的深度渐进学习框架能够广泛适用于多类计算机视觉任务中,并超越了传统深度模型的性能。(2)时序渐进学习与行人重识别:对于出现在视频中的行人实例对象,单一视频帧仅能包含有限的身份信息,如何有效提取并融合不同视频帧中的有效信息是行人重识别任务中的核心问题。现有方法往往无法有效利用视频序列中的时序信息,本文从时间序列信息融合的角度,提出一种时序渐进学习模型。针对任务中如何有效整合时序特征的问题,本文提出一种基于长短时记忆网络的特征融合模型(RFA-Net)。在每个时间节点,特征融合网络接受该时刻的行人特征作为输入,并沿着时间轴将有用的特征逐步聚合为有很强区分性的序列化表达。本文在三个公开数据集上验证模型的有效性,结果表明,RFA-Net无论是使用传统人工设计的特征作为输入,还是使用卷积网络学习得到的特征作为输入,所提出的模型都能取得比传统融合方法更优的效果。(3)空间渐进学习与细粒度识别:细粒度图像识别的挑战性在于类内差异大而类间相似度高,如何有效查找和比较细粒度类别之间的细节差异是该任务的核心挑战。基于整体的深度学习模型往往无法有效关注到物体的细节特征,为了更好地解决物体的细节特征挖掘与融合问题,本文提出空间渐进思路。所提出的空间渐进模型使用物体属性信息作为监督信号,并使用循环注意力网络按照空间顺序依次关注物体的不同部位及空间尺度,同时使用一个长短时记忆网络(LSTM)将物体不同空间区域的细节特征进行融合,从而得到更具有区分性的图像特征。(4)交互渐进学习与行为预测:在细粒度图像识别的基础上,本文研究一类更具挑战性的细粒度识别任务,即细粒度交互行为预测任务。该任务的核心挑战在于如何对个体间的交互行为进行有效建模,同时找到场景中最具判别性的区域以区分细粒度的动作类别。为了解决以上两个问题,本文提出了一种渐进式的模型对交互动作进行预测。该模型具体分为三个阶段,即整体阶段、个体阶段以及交互信息耦合阶段,分别关注全局信息、个体信息以及交互关系,来对交互个体进行建模。模型同时提出了一种基于相互注意力机制,对场景中的判别性区域进行查找,从而提升模型的表达能力。所提出的模型能无缝嵌入经典的动作识别框架,实现端到端的学习。(5)模态渐进学习与视频生成:视频生成是一类更加精细的视觉理解任务,该任务要求对视觉信号进行像素级别的理解,其挑战在于如何在巨大的视频空间找到合理的数据分布。传统的视频生成算法对前景物体的结构缺乏有效约束,从而造成生成视频出现形变、模糊等现象。本文提出一种模态渐进模型以改善视频生成效果,所提出的模型使用物体的关键点作为结构模态表示,通过降低搜索空间的维度达到降低任务难度的效果;同时提出一种从低维结构空间到高维视频空间的映射模型改善生成视频质量。实验结果表明,所提出的模态渐进模型能够大幅改善视频生成的效果。综上所述,本文面向不同层次的精细视觉理解任务,提出适合不同任务的深度渐进模型。针对实例级别的行人重识别任务,本文提出时序渐进模型。针对图像和视频的细粒度类别理解任务,本文分别提出空间渐进模型和交互渐进模型。针对像素级别的视频生成任务,本文提出模态渐进模型。大量的实验结果和广泛的理论分析表明,本文所提出的渐进学习方法在不同级别的精细视觉理解任务中都存在优越性。