论文部分内容阅读
基于神经网络的对象检测算法(ObjectDetection)能够分析图片中的语义信息,预测目标的位置以及类别,相对于传统的对象检测方法有更好的表现。但在具体的应用场景中时常面临一些难点,包括:RGB图片颜色信息退化导致的对象检测精度下降问题;缺少有效数据造成样本数据规模较小,因而导致模型训练欠拟合的问题;基于神经网络方法的对象检测因为模型参数冗余、模型复杂,无法适应导航及工业场景等高实时性场景的问题。
从上述问题出发,本文搭建融合多模态对象检测模型。模型中引入深度信息,辅助RGB信息提高整体对象检测的精度,应对RGB图片颜色信息退化问题。在训练过程中应用跨模态监督转移训练的方式,解决缺乏大规模深度图数据集的问题,并调整融合网络结构以适应小规模数据集迁移训练过程。本文主要工作成果如下:
1.分析并以实验验证在不同模态及知识领域之间监督转移(supervisontransfer)训练的有效性。基于深度图的对象检测模型,可以由大规模RGB图片训练的预训练模型,通过小规模数据集跨模态迁移训练得到。在颜色信息退化的RGB-D数据集中,深度图对象检测模型对比相同主干网络(backbone)的RGB输入模型精度更高。
2.应对RGB图片信息退化问题,本文提出了基于浅层多模态RGB-D特征融合对象检测模型。对于不同的特征融合位置,分别构建双流中浅层特征融合对象检测模型和单一流最浅层输入融合对象检测模型。在模型使用相同主干网络的前提下,两者精度都超过了基于RGB输入的单模态检测模型,并均达到了实时的检测速度。
3.在浅层多模态融合模型基础上,提出更加适应小数据规模的深层多尺度融合跨模态RGB-D对象检测模型。该模型在神经网络的深层进行多尺度融合以提高检测精度。在模型训练期间,应用包括跨模态监督迁移训练在内的三阶段训练方式,有效解决小数据规模导致的训练欠拟合问题。模型在颜色信息退化或深度信息不佳的情况下,能够提供更加鲁棒的检测效果,且检测速度实时。
在公开数据集以及自构建的数据集的实验表明,本文提出的深层多尺度融合跨模态RGB-D对象检测模型,仅通过小数据规模训练,就能提升模型对象检测的精度,且速度超过35fps,达到实时的检测速度要求。
从上述问题出发,本文搭建融合多模态对象检测模型。模型中引入深度信息,辅助RGB信息提高整体对象检测的精度,应对RGB图片颜色信息退化问题。在训练过程中应用跨模态监督转移训练的方式,解决缺乏大规模深度图数据集的问题,并调整融合网络结构以适应小规模数据集迁移训练过程。本文主要工作成果如下:
1.分析并以实验验证在不同模态及知识领域之间监督转移(supervisontransfer)训练的有效性。基于深度图的对象检测模型,可以由大规模RGB图片训练的预训练模型,通过小规模数据集跨模态迁移训练得到。在颜色信息退化的RGB-D数据集中,深度图对象检测模型对比相同主干网络(backbone)的RGB输入模型精度更高。
2.应对RGB图片信息退化问题,本文提出了基于浅层多模态RGB-D特征融合对象检测模型。对于不同的特征融合位置,分别构建双流中浅层特征融合对象检测模型和单一流最浅层输入融合对象检测模型。在模型使用相同主干网络的前提下,两者精度都超过了基于RGB输入的单模态检测模型,并均达到了实时的检测速度。
3.在浅层多模态融合模型基础上,提出更加适应小数据规模的深层多尺度融合跨模态RGB-D对象检测模型。该模型在神经网络的深层进行多尺度融合以提高检测精度。在模型训练期间,应用包括跨模态监督迁移训练在内的三阶段训练方式,有效解决小数据规模导致的训练欠拟合问题。模型在颜色信息退化或深度信息不佳的情况下,能够提供更加鲁棒的检测效果,且检测速度实时。
在公开数据集以及自构建的数据集的实验表明,本文提出的深层多尺度融合跨模态RGB-D对象检测模型,仅通过小数据规模训练,就能提升模型对象检测的精度,且速度超过35fps,达到实时的检测速度要求。