论文部分内容阅读
随着计算机视觉技术的快速发展,智能监控辅助系统已经出现在各个领域。 到目前为止,视频移动目标的检测和跟踪在越来越多的智能安全系统中发挥了重要作用。但是当目标的外观在光照变化,尺度变化和背景杂斑下变形,导致视频目标的提取特征发生变化,传统的视频目标检测和跟踪技术无法实现对动态物体准确,实时的跟踪。
深度学习通过模拟类似人脑的层次结构建立从低级信号到高层语义的映射,以实现数据的分级特征表达,具有强大的视觉信息处理能力。因此本论文引入深度学习进行目标跟踪,提出两种混合深度架构进行目标追踪。一种是混合雷达和视觉信息,利用深度学习跟踪方法研究在车辆检测上的应用,另外一种是在深度网络中混合空间和时间信息来进行目标追踪。
主要研究工作和创新点如下:
(1) 为了解决上汽集团智能交通中车辆行驶的前方目标检测,提出了一种基于Fast R-CNN的雷达和视觉融合的车辆检测模型,并建立了基于毫米波雷达和摄像头的信息处理流程和空间配准方案,优化了卷积网络的层数和神经元数和网络的输出层数量。该方案将机器视觉信息和雷达信息有机融合,第一次融合提取感兴趣区域,第二次融合提前候选区域,信息融合通过降低Fast R-CNN本身的候选区域数量来减少神经网络本身收敛的时间。并使用实际道路场景的图像数据进行预训练,最后在常规道路上进行检验,实测结果良好。
(2) 由于追踪任务和目标识别任务目的性的基本不一致性,提出了一种基于卷积神经网络,长短期记忆网络(Long Short-Term Memory, LSTM)和卷积长短期记忆网络(Convolutional LSTM,ConvLSTM)的分层时空神经网络,称为混合时空深度网络(Hierarchical Spatiotemporal Neural Networks For Robust Visual Tracking , HST)。HST利用与对象相关的数据集进行预训练,从独立和不相关的图片中提取实例级特征而不是类级特征,以对抗来自同一类别的对象的干扰和来自背景的类似对象的噪声。分层时空结构使实例级特征更适应目标的变化。网络中的卷积层将目标的细粒度细节传输到ConvLSTM层。 ConvLSTM层模拟视频序列的时间相关属性并表征局部特征。最后的LSTM回归层能够从视觉特征推断区域位置,并将当前帧中的特征回归到下一帧中的预测特征向量。实验结果表明,该算法在精度和鲁棒性方面具有优异的性能。
深度学习通过模拟类似人脑的层次结构建立从低级信号到高层语义的映射,以实现数据的分级特征表达,具有强大的视觉信息处理能力。因此本论文引入深度学习进行目标跟踪,提出两种混合深度架构进行目标追踪。一种是混合雷达和视觉信息,利用深度学习跟踪方法研究在车辆检测上的应用,另外一种是在深度网络中混合空间和时间信息来进行目标追踪。
主要研究工作和创新点如下:
(1) 为了解决上汽集团智能交通中车辆行驶的前方目标检测,提出了一种基于Fast R-CNN的雷达和视觉融合的车辆检测模型,并建立了基于毫米波雷达和摄像头的信息处理流程和空间配准方案,优化了卷积网络的层数和神经元数和网络的输出层数量。该方案将机器视觉信息和雷达信息有机融合,第一次融合提取感兴趣区域,第二次融合提前候选区域,信息融合通过降低Fast R-CNN本身的候选区域数量来减少神经网络本身收敛的时间。并使用实际道路场景的图像数据进行预训练,最后在常规道路上进行检验,实测结果良好。
(2) 由于追踪任务和目标识别任务目的性的基本不一致性,提出了一种基于卷积神经网络,长短期记忆网络(Long Short-Term Memory, LSTM)和卷积长短期记忆网络(Convolutional LSTM,ConvLSTM)的分层时空神经网络,称为混合时空深度网络(Hierarchical Spatiotemporal Neural Networks For Robust Visual Tracking , HST)。HST利用与对象相关的数据集进行预训练,从独立和不相关的图片中提取实例级特征而不是类级特征,以对抗来自同一类别的对象的干扰和来自背景的类似对象的噪声。分层时空结构使实例级特征更适应目标的变化。网络中的卷积层将目标的细粒度细节传输到ConvLSTM层。 ConvLSTM层模拟视频序列的时间相关属性并表征局部特征。最后的LSTM回归层能够从视觉特征推断区域位置,并将当前帧中的特征回归到下一帧中的预测特征向量。实验结果表明,该算法在精度和鲁棒性方面具有优异的性能。