基于跨模态多尺度融合网络的实时RGB-D对象检测方法

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:zhm4150175
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于神经网络的对象检测算法(ObjectDetection)能够分析图片中的语义信息,预测目标的位置以及类别,相对于传统的对象检测方法有更好的表现。但在具体的应用场景中时常面临一些难点,包括:RGB图片颜色信息退化导致的对象检测精度下降问题;缺少有效数据造成样本数据规模较小,因而导致模型训练欠拟合的问题;基于神经网络方法的对象检测因为模型参数冗余、模型复杂,无法适应导航及工业场景等高实时性场景的问题。
  从上述问题出发,本文搭建融合多模态对象检测模型。模型中引入深度信息,辅助RGB信息提高整体对象检测的精度,应对RGB图片颜色信息退化问题。在训练过程中应用跨模态监督转移训练的方式,解决缺乏大规模深度图数据集的问题,并调整融合网络结构以适应小规模数据集迁移训练过程。本文主要工作成果如下:
  1.分析并以实验验证在不同模态及知识领域之间监督转移(supervisontransfer)训练的有效性。基于深度图的对象检测模型,可以由大规模RGB图片训练的预训练模型,通过小规模数据集跨模态迁移训练得到。在颜色信息退化的RGB-D数据集中,深度图对象检测模型对比相同主干网络(backbone)的RGB输入模型精度更高。
  2.应对RGB图片信息退化问题,本文提出了基于浅层多模态RGB-D特征融合对象检测模型。对于不同的特征融合位置,分别构建双流中浅层特征融合对象检测模型和单一流最浅层输入融合对象检测模型。在模型使用相同主干网络的前提下,两者精度都超过了基于RGB输入的单模态检测模型,并均达到了实时的检测速度。
  3.在浅层多模态融合模型基础上,提出更加适应小数据规模的深层多尺度融合跨模态RGB-D对象检测模型。该模型在神经网络的深层进行多尺度融合以提高检测精度。在模型训练期间,应用包括跨模态监督迁移训练在内的三阶段训练方式,有效解决小数据规模导致的训练欠拟合问题。模型在颜色信息退化或深度信息不佳的情况下,能够提供更加鲁棒的检测效果,且检测速度实时。
  在公开数据集以及自构建的数据集的实验表明,本文提出的深层多尺度融合跨模态RGB-D对象检测模型,仅通过小数据规模训练,就能提升模型对象检测的精度,且速度超过35fps,达到实时的检测速度要求。
其他文献
内置式永磁同步电机(IPMSM)具有电磁转矩纹波系数小、动态响应快、运行平稳、过载能力强等优点。然而内置式永磁同步电机是一个复杂多变量的非线性系统,传统的线性控制方法难以保证其运行品质。因此针对此问题,本文围绕内置式永磁同步电机非线性控制方法展开研究工作,着重研究如何利用自抗扰控制、无源控制等非线性算法改善系统的动态响应能力和抗干扰能力。  本文首先对内置式永磁同步电机特点进行分析,构建其在两相同
火灾是人们共同面临的灾难性问题。为了避免火灾引发的重大事故,许多传统的火灾检测方法被广泛使用,如烟感、温感探测器。这些传感器被用来检测空气的湿度、温度或者烟雾,从而发出警报,其最大的局限性就是受到距离的限制,其有效探测范围较小,且不便于火灾的早期探测。为了克服传统探测器的不足,国内外研究人员提出了基于视频的火焰检测方法,这些方法通常将多个识别方法相结合来提高识别率。由于环境的复杂性,目前大部分算法
野外工作者和户外探险者的活动环境往往离居住区较远,当地气象信息相对较为缺乏,在这种环境下,对于天气的评估只能凭借人为观察和经验来判定,但对突发的危险天气缺乏一定的预测能力。而且偏远地区的公共通信基站数量少,手机信号覆盖不足,因此,当意外发生时,野外工作者几乎很难发出有效的求救信号。  本论文设计和实现了一种可穿戴式的局部危险天气预警系统,该系统能测量当前环境温度、湿度、气压以及闪电发生的次数和距离
无线通信的发展方兴未艾,由各类无线通信设备的增长和频谱分配不合理所带来的频谱资源稀缺现象正随着人类的发展而逐渐凸显出来[1]。电视白频谱(TV White Space,TVWS),由于其自身优良的传播特性,作为潜在的待开发频谱非常适合用于无线通信。动态频谱接入技术的提出,允许未授权的无线设备在不影响主要的授权设备使用的情况下,通过空闲的授权频谱资源进行通信[2]。这对于电视白频谱的应用是一个契机,
脑中风发病急,病死率高,是世界上最严重的致死性疾病之一。对于脑中风的治疗,预防和检测是整个过程的重要环节。微波检测由于具有非电离以及成本低等优点,成为具有广阔的发展前景的疾病可穿戴检测预警技术。其中天线作为微波信号的发射与接收设备,是微波检测系统重要的组成部分。因此,设计一款性能优越并适用于可穿戴微波检测系统的天线来提高疾病检测的准确性是具有重要意义的。折叠天线通过平面天线折叠来改变天线相位,在缩
学位
无人机(UAV)以其覆盖范围广、机动性强等优点,在提高无线通信系统性能方面有着巨大的潜力。本文主要围绕地面节点(GT)和UAV之间的能量权衡和UAV轨迹优化两个关键点,对UAV数据采集系统的优化传输策略进行研究。另对存在窃听者的场景下,对UAV中继系统保密能效最大化进行了探讨。具体研究内容归为如下三个方面:(1)首先,对单用户场景的UAV数据采集系统性能进行分析,引出了GT-UAV无线通信中的一种
学位
惯性导航系统是一种自主性强,有极强的抗干扰力,不受气象条件限制,满足全天候导航的导航系统。在航天、航空和航海等领域中有着广泛应用,是导弹等武器系统实现快速精确打击的重要保障。惯性导航系统结构复杂,误差源之间相互耦合,难以通过惯导系统误差参数,对其作战精度作出直观评估。同时由于战场情况瞬息万变,要求作战人员在短时间内作出武器系统精度评估和战术筹划,本文针对武器系统中的惯性导航精度进行准确快速地评估进
学位
盆栽试验结果表明,在高铁、高锰胁迫下硅对水稻生理特性、生长发育和产量有明显的正效应。高浓度铁、锰和低浓度硅组合,水稻根系活力、SOD酶活性和CAT酶活性最差、丙二醛(MDA)含量最高。相反,低浓度铁、锰和高浓度硅处理,上述水稻生理指标均有所改善。高硅,低铁、锰组合较对照分别增产15.2%和3.4%;高铁、锰组合不施硅肥较对照减产72.7%;低铁、锰组合不施硅肥较对照减产20.5%;高铁、高锰胁迫下
目前基于生成对抗网络算法的人脸图像相关应用,包括人脸合成,脸部去妆,表情合成等,是计算机视觉领域的研究热点。其中人脸表情合成算法一直受到研究者的广泛关注。表情合成即通过图像处理算法使得目标人脸图像拥有特定的表情细节。表情合成在日常娱乐、电影特效、公安刑侦面部合成和医疗影像等领域有广阔的应用前景,因而研究人脸表情合成具有重要意义。  本文在研究现有表情合成方法的基础上,提出两种不同类别的表情合成方法
学位
随着气候变暖,环境问题对于人类的影响越发严重,发展“低碳经济”成为大势所趋。物流行业作为二氧化碳排放大户,产生的二氧化碳占人类活动的5%,其中车辆运输配送过程产生的二氧化碳占总量的87%。所以研究配送中心选址、车辆运输配送路径的优化问题,不仅对节能减排具有重要意义,而且对于物流企业提升自身效益也具有重要价值。  本文以物流配送选址-路径问题(Location-RoutingProblem,LRP)