论文部分内容阅读
行人检测是计算机视觉领域中一个具有挑战性的问题,也是许多视觉应用的先决任务,例如自动驾驶、视觉监控和机器人技术等。在过去的十年中,行人检测引起了广泛的研究兴趣,并取得了长足的进步。特别是最近几年,得益于深度卷积神经网络的发展,通用目标检测领域取得了重大进步。受此驱动,行人检测也得到了迅速发展。基于深度卷积网络的通用目标检测模型被不断扩展应用到行人检测领域,并取得了良好的性能。对于行人检测任务,本文提出了一种基于特征感受野增强的网络模型结构。当前基于深度学习的行人检测模型大多采用分而治之的策略来解决行人检测中的尺度变化问题。在检测时,每一个特征层的感受野大小是固定的,无法适应实际情况中行人尺度的连续变化;而且这些检测模型大多采用图像分类中的骨干网络作为特征提取器,这些骨干网络仅仅具有方形的感受野,与行人的宽高比之间也存在着严重的不匹配;这些因素影响着行人检测模型的性能。针对上述问题,本文提出了一种基于特征感受野增强的网络模型作为解决方案。该方案利用感受野增强模块多样化从骨干网络中提取的特征的感受野,以提供合适的感受野与行人的尺度大小相匹配,并利用多层次聚合模块进一步聚合多尺度特征层,即融合不同尺度下的感受野,从而得到融合的特征金字塔来帮助后续的行人检测。通过上述模块的变换,模型提取的特征对行人的尺度变化具有更好的鲁棒性。为了验证本文所提出的方法的有效性,在CityPersons和Caltech等基准数据集上进行了一系列对比实验。实验结果表明,本文所提出的特征增强模块对行人检测的性能具有明显的提升作用,在不同的数据集上都取得了目前较好的检测效果。此外,在行人检测任务的基础上,为了对行人的运动信息进行更好地理解,本文还对人体行为识别问题进行了相关研究,设计并实现了基于双流结构的行为识别模型。该模型由二维卷积网络、三维卷积网络、特征通道融合和注意力机制以及解耦的检测器四个子模块组成。在行为识别模型中,通过基于二维卷积网络和三维卷积网络的双流网络结构,分别提取视频中的静态外观特征和时间上下文的运动信息。在检测器模块中,通过引入解耦分类和回归任务的思想,以保证分类和回归任务能够学到针对各自任务有用的特征信息。