论文部分内容阅读
近空目标检测和快速移动的小目标检测一直是计算机视觉领域的前沿课题。目标在视频中的空间信息随着时间不断变化,给检测框架带来巨大的挑战。本文的主要工作概括如下:(1)分析了多阶段目标检测算法框架检测流程,使用时空图像立方体作为输入,提取了同时具备时间和空间信息的特征,并采用了三维卷积神经网络(3D-CNN)、基于3DHOG的提升树算法和属性迁移这三种不同的分类算法分别进行目标检测。为更好地利用时空立方体的时空信息,本文还提出了基于时空立方体的关联边框修正网络(Relevant Bounding Box Adjustment Based on Spatiotemporal Cube,ST-RBBA)对目标检测结果进行优化。(2)分析了单阶段目标检测网络的训练过程,对真实边界框采用了新的增强方法,并对同一输入使用了增强的多个标签进行网络训练,从而有效避免了训练结果过分依赖与手工标记的边界框。为弥补单阶段目标网络无法利用视频在时间上的上下文信息的缺陷,提出基于伪时空立方体的关联边框修正网络(Relevant Bounding Box Adjustment Based on Pseudo-Spatiotemporal Cube,PST-RBBA)对目标检测结果进行优化。(3)为更好地利用视频数据中空间和时间信息之间的关系,针对空中目标检测,提出了基于时间信息的轨迹矫正记忆网络(Trajectory Correction Memory Network,TCMN)对本目标检测框架做了进一步优化,利用RNN/LSTM的记忆功能,使检测到的目标与唯一飞行路径绑定,让检测结果具有更好的连续性和一致性。本文的实验采用了斯坦福大学公开的无人机视频数据。实验结果表明,ST-RBBA能提升3D-CNN 2%的平均交并比(mIoU);Retina Net和YOLO目标检测框架使用多标签训练法后检测效果更好;多标签YOLO、3D-CNN、ST-RBBA-3D-CNN和HBT四种检测框架经过TCMN优化后,检测结果的平均检测精度(AP)在无人机数据集上分别提升了3.3%、0.9%、0.5%和0.4%,在飞机数据集上分别提升了2.5%,2.7%、0.1%和17.9%;并利用TCMN对多标签YOLO的矫正轨迹分析了飞机和无人机飞行行为。