论文部分内容阅读
随着视觉大数据的和人工智能的发展,视频数据的分析是未来计算机视觉领域的关键,其中监控视频的行人识别、检索和分析是一项越来越重要的任务。多个摄像头之间的行人匹配任务称为行人重识别,这个任务是在定位出行人位置之后对行人进行区分。现有的研究方法有基于图像的和基于视频的行人重识别,其中视频行人重识别任务的更加困难,也是未来视频时代的攻坚任务。随着深度学习的发展,基于卷积神经网络和循环神经网络的行人重识别方法取得了诸多突破,许多将基于图像的行人重识别算法在时序上应用到视频行人重识别研究上,有着可观的效果,更多的方法基于视频本身连续序列的特性构建相关网络,或者通过从不同维度对视频信息的描述进行建模,实现多模态信息的监督,也取得了显著成效。但视频行人重识别还存在着诸多不足,一方面,由于视频本身连续序列的特征相关性没有得到体现,视频特征的重要性没有有效区分,影响了视频特征的表征效果。另一方面,在通过不同维度对视频进行描述时,缺乏从跨维度、跨模态的全局视野去捕捉更具整体判别效果的关键特征。因此本文针对以上两个问题,提出了视频特征的多级感知优化方案,从视频帧和视频段两个级别对特征进行优化,提高特征判别力。本文主要贡献有:1)本文在“RGB+光流”的双流模型的基础上,从帧级别设计了上下文感知和多模态感知的特征优化结构,构造了双流循环交互感知网络TS-RCAN。该网络采用卷积神经网络提取基础特征,通过循环神经网络进行特征串联,通过两种门结构的设计分别进行上下文感知和多模态感知,这两种门结构都是采用通道注意力的设计方式实现特征的重要性区分,从而实现特征优化,提高每一帧的特征表达能力。2)本文将Non-local的自注意力机制拓展到行人重识别的双流网络上,学习每一个模态的整个视频段时空特征之间的关联关系和重要性区分,形成双流段级注意力感知优化网络TS-SAPN。TS-SAPN的注意力感知方法与其他自注意力机制不同之处在于其通过利用上一阶段的帧级优化特征生成关联权重掩码,引入了多模态的感知信息,提升了注意力感知得到的特征辨别效果。本文将帧级别和段级别的优化网络相结合得到双流多级特征感知优化网络TS-MLPN,从两个级别、三种感知对视频双流特征进行优化,将视频帧级别和视频段级别的优化特征沿通道融合得到视频的最终特征表征,有效提升了双流特征的整体表达能力。本文在两个公开数据集上对提出的TS-RCAN和TS-MLPN进行了测试,并将测试结果与近几年的视频行人重识别的前沿算法进行对比,显示这两种网络都有着更优的行人重识别检测效果,验证了本文的感知优化策略。