论文部分内容阅读
随着信息科技与网络的迅猛发展,各种媒体数据也随之海量增长,大量的视觉数据不断涌现。为了更高效快速地应用视觉数据,许多研究者开始系统地研究计算机视觉技术。目标检测作为计算机视觉的重要基础任务之一,在视频监控、军事观测、医疗诊断及自动驾驶等许多领域中均具有非常重要的理论及应用价值,因而已逐渐成为计算机视觉及人工智能领域的一个热点研究问题。随着学术及工业界对这一问题的不断研究,目标检测算法的检测精度及速度已经有了显著性的提高,但在实际应用中仍存在着不少挑战:现实场景中,采集到的图像、视频等往往不可避免存在复杂背景,例如,一些特殊背景与待检目标形态非常的相似,极易被误判为待检目标,这无疑会造成待检目标被错误识别的概率增加;现实场景中,物体的分布杂乱以及观察角度问题,目标物体可能会存在不同程度的遮挡,增加了漏检的可能性;因拍摄距离和角度问题,图像中目标的尺寸也存在着很大的差异,对于目标区域定位的准确性存着一定的影响。以上这些问题均增加了检测的难度,严重影响了检测的性能。本文针对以上挑战依次对目标检测算法进行了研究,主要工作内容及创新点概述如下:(1)针对图像中的复杂背景干扰及遮挡造成的目标被错检、漏检的问题,本文将注意力机制引入到目标检测中,形成了目标注意力机制的检测方法,通过关注待检测的目标,过滤掉杂乱的不相关目标,来降低检测任务的复杂性;另外,针对图像中的遮挡问题,本文改进了可能会造成重叠遮挡目标漏检的NMS后处理方法,使用Soft NMS方法代替传统的NMS方法来进行后处理,以使模型能够对重叠遮挡目标的检测更为鲁棒;最后,为了进一步降低计算成本,提升检测速率,本文对检测模型的网络架构进行了轻量化,并对检测过程中的ROI Pooling操作因量化使得候选框产生偏差,而带来的定位不准的问题,借鉴ROI Align池化技术进行了改进。(2)针对目标物体尺度差异问题,本文在专注于速度的SSD多尺度独立检测模型的基础上进行了改进,通过特征金字塔方法将网络特征进行融合以及融合通道注意力机制来进行目标检测。该改进模型的主要思想为:首先对输入图像利用卷积神经网络进行特征提取;接着,通过特征金字塔方法将高语义的高卷积层特征逐层融合至高分辨率的低卷积层特征中,以增强各卷积层特征的语义信息,获得更具表达力的特征;然后将通道注意力模块与融合后的多个不同尺度的特征图进行融合,以对特征图各通道之间的关联性进行建模,进一步优化特征,以获得综合表达性更强的特征,从而增强网络处理多尺度目标的能力。