论文部分内容阅读
随着智能手机和摄像设备的增加,图片视频等数据资源迅猛地增加。红外图像的数据量也随着红外设备的增多而日益增多,如何从这些红外图像和视频数据挖掘信息成为当今研究的热点。红外图像和视频在安防监控,视频检索,红外图像识别和人体姿态识别都有着重要的作用和巨大的潜力。越来越多的科学家和工程师研究和探索红外图像的检测和动作识别。针对上述背景,本文调研了目前动作识别的发展现状与难点,并分析了可见光动作识别的发展历史和出现的重要算法,也对红外动作识别的进展进行了调研,介绍了专门为红外动作识别提供的数据集InfrAR,以及目前在该数据集上的提出的识别算法进展。最后通过分析空间复杂性,时间差异性,计算资源等角度分析了动作识别的难点所在。文本介绍了深度学习基础理论,包括神经网络原理和结构。并分析了主流的几种基于深度学习的动作识别算法。在红外人体目标检测任务中,本文完成从模型训练到硬件实现的全部流程。本文找出并处理了 FLIR-ADAS的红外图像数据集,并使用dark-net训练框架对红外图像的人体目标进行训练,得到网络模型参数,然后使用英伟达的开源优化库TensorRT和DeepStream对网络模型进行加速处理,实现在Jetson Nano开发板上实时25帧的红外车辆和行人检测模型。本文还分析了 YOLOv3和tiny-YOLOv3的检测差异与实时性能对比。在红外目标的动作识别中,本文采用基于MPEG-4压缩视频提取运动帧的方法,直接从视频中提取关键帧(I-frame),预测帧(p-frame)和残差帧(residual-frame),并使用深度学习网络ResNet152,ResNet18对压缩内容提取运动信息,使用正则化的技术和增加视频分段数,可以抑制小数据集容易出现的过拟合问题,通过对视频分段数,模型融合的权重实验,反复训练和测试,找到最优的超参数,最终实现在InfrAR红外数据集实现61.67%的平均准确率,75.03%的平均精度均值(Mean Average Precision,mAP)。证明基于压缩视频的动作识别算法在红外领域有很好的实用性和适用性。本文讨论和实验正则化权重,模型融合比例,以及视频分段数与该模型的关系,量化对模型的影响,更好扩展算法的性能。