论文部分内容阅读
运动目标分割是智能监控系统的重要部分,是后期目标追踪和目标行为分析的基础,在影像拼接去“鬼影”和无人驾驶中,也起着重要的作用。传统的运动目标分割通常依赖于影像的灰度信息,且对目标的类别未知。基于深度学习的运动目标分割方法的引入,将运动目标分割上升到了类别已知的层面。基于当前运动目标分割的研究现状,本文针对同一相机拍摄的具有时间差的影像对,提出一种将光流场、实例分割和运动状态分类相结合的运动目标分割算法,通过关联光流场生成网络FlowNet2.0、实例分割网络MNC和基于ResNet-34的分类网络,将FlowNet2.0和MNC生成的结果和影像RGB信息一同输入分类网络,在完成目标级的带语义信息分割的同时,实现对各目标运动状态的分类。本文主要研究成果如下:(1)对运动目标实现逐像素目标级的分割。以往常见的对运动目标的分割停留在语义分割层面——即将全图的运动区域和非运动区域逐像素分开,并对全影像中各个像素所属的种类类别进行归类。然而,语义分割无法以目标为单元分离运动目标。本文算法采用了目标级的逐像素实例分割,并加以“热点重搜索”策略,在语义分割的基础上将全图的运动区域基于个体目标分离开来。(2)对具有时间差的影像对进行运动目标分割。以往常见的运动目标分割方式通常基于视频影像序列,从而可有前后帧的连贯性等作为参考。然而,与视频影像序列不同,影像对的运动目标分割难度较大,研究较少。本文基于影像对进行运动目标的分割,提高了运动目标分割的应用广泛性(如影像拼接)。(3)提出一种全新的基于深度学习的运动目标分割方法。以往基于深度学习的运动目标分割为语义级分割,本文基于深度学习进行实例分割后,为得到目标的运动状态,创新性地结合光流场作为运动特征信息,输入创建的基于深度学习的运动状态分类网络,并针对运动状态分类网络组建了自已的数据集,为后续研究运动目标分割提供数据支持,最终得到基于全影像的运动目标分割结果。实验结果表明,本文训练的运动状态分类网络模型在真实场景的测试集中,整体分类正确率达到了 94.1%,针对较难处理的小范围运动情况,分类正确率达到70.6%。此外,在对各种类目标的运动状态分类时,正确率达到了 84.7%,具有很强的泛化能力,且受光照和对比度变化等噪声干扰小。最后,将目标映射回原影像后的整体运动目标分割效果与基于影像对的运动目标分割常用的帧差法相比较,抗噪声能力更强、分割得到的信息更丰富,应用性更加广泛。