基于知识蒸馏策略和级联网络的深度估计方法

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:logan_lxh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
单目深度估计是计算机视觉领域中一项重要而具有挑战性的任务,而且在三维场景重建、无人驾驶、医学图像处理、现代化军事以及智能交通系统中都发挥关键性作用。其目的在于估计出RGB图像中每一像素点的深度信息。基于深度学习的深度估计流程为:首先输入一张二维图像,然后进入卷积神经网络即编码器-解码器结构,最后估计出图像中场景的深度值。在深度估计的过程中,网络模型的精确度往往会受到图像尺度与场景环境的影响。尽管目前有许多方法在该任务上有着很优秀的表现,但是大部分方法在神经网络中对特征图语义信息的利用还不够充分,而且使用的损失函数均为逐像素操作,比如一范数约束或二范数约束。这些损失函数没有考虑到像素之间的关联,也没有对深度的分布进行约束。针对上述问题,本文提出了二阶段的级联深度蒸馏模型(Cascaded Depth Network with Distillation Strategy,CDDN),利用级联网络有效地组织特征图信息,同时提出分布一致性损失函数约束预测深度图的直方图分布。本文训练模型时,首先通过模型的第一阶段得到一个粗略的预测深度图,接着将其与原图像融合后的特征信息作为第二阶段模型的输入。在训练第二阶段模型时,引入知识蒸馏策略,即利用深度填补的模型作为第二阶段模型的指导模型,指导预测最终的深度图。在训练过程中,为了更好的预测出准确的深度图,第二阶段模型引入分布一致性损失函数来约束网络模型估计的深度图。在本文的实验部分,大量的对比实验能够证明各个模块的有效性,并且本文在两个公开的深度估计数据库上进行了大量的实验以此验证模型的有效性,实验结果表明CDDN在深度估计的任务上能达到前沿的效果。
其他文献
随着移动互联网的普及和5G的飞速发展,网络上数据规模呈指数增长,数据的价值也被不断挖掘利用。数据中心作为数据进行传递和存储的基础设施,正在承载着这些复杂的网络数据。随着数据规模日益增长,在庞大的网络数据和高速网络传输面前,如何对网络进行流量实时获取、分析、存储是网络流量分析必须要面临的挑战。如何在不影响正常业务数据的情况下,高效完成对整个数据中心流量进行采集分析,是一个热点问题。目前传统的实时流量
在位测量与反馈加工一体化是保证曲面轮廓精度的有效手段,在机测量将测量点云和模型点云进行配准后进行余量求解生成G代码反馈至机床完成误差补偿,因此点云配准和余量精确求解将直接影响在位测量的准确度,是在位测量及反馈加工数据处理中至关重要的一个步骤,也是反馈加工过程中重要环节之一。然而,点云配准对于初始位姿有较高的要求并易陷入局部最优,会影响点云配准的精确度。另一方面,目前大部分的余量求解算法以点为三角面
随着城市交通系统中车辆数量的增加,交通系统面临着一些列问题,比如交通拥堵、出行时间过长、交通事故率提高等。基于车联网(VANET)技术产生的智能交通系统(ITS)使得这些问题有了一定的缓解。然而随着车辆数量的持续快速增加,传统ITS的运行效率正不断降低,迫切需要新的技术支持来提高解决交通问题的效率。在此背景下,SDNbased VANET(基于软件定义网络的VANET)框架应运而生。SDN-bas
雨天条件下受到雨线或雨条的影响,拍摄的图像会退化,信息遭受破坏和丢失,使得图像的视觉能见度下降,图像成像模糊或失真。在现实世界的工作任务中,往往需要高质量的图像,并且退化图像限制了室外高级视觉处理算法,例如目标检测,图像分割等应用。因此,开发一种有效的图像去雨算法,从有雨的图像恢复出无雨图像,是一个亟待解决的问题。图像去雨作为计算机视觉系统中的底层处理任务,在当前阶段具有十分重要的研究价值。然而,
显著目标检测旨在模拟人眼的视觉机制,检测并分割出一幅图像中最吸引人注意力的目标。近年来,这项基础性的工作在很多计算机视觉领域中都发挥了重要的作用,比如行人重识别、弱监督语义分割、物体识别等领域作为图像预处理技术。虽然基于RGB图像的显著目标检测获得了很大的进展,但在复杂场景下检测效果仍需要改善。随着RGBD传感技术的发展,能够获得RGB彩色图像的同时获得相应的深度图像信息。由于深度信息能够使网络感
传统人机交互的信息输入方式具有一定的局限性,随着技术的发展,手势识别的应用为人机交互提供了一种新型解决方案。手势作为人类的第二语言能够直接地传达个体信息,在交互方面更加灵活方便。基于计算机视觉的二维手势交互技术日渐成熟,为了显著降低交互延迟,需要较高性能的计算机设备,使用成本较高且局限于计算机使用。针对这种问题,论文提出了一种基于Xilinx公司的PYNQ开发平台实现的二维手势交互设计的解决方案。
计算机辅助几何设计(简称CAGD)的重点研究内容之一是曲线曲面的表示与逼近,CAGD十分重视CAD/CAM的数学理论和几何体的构造,利用数学理论描绘曲线、曲面、零部件、装配件等几何形状间的配合、包含、约束等关系,利用计算机手段对这些几何形状进行分析、调整、优化进而达到对产品设计等预期的目标。由于Bézier曲线具有变差缩减、细分等优良性质和良好的形状控制能力,所以在曲线造型中得到了广泛应用,在CA
近年来,数据驱动型算法逐渐成为了计算机医学影像分析方法的主流。目前的数据驱动算法主要侧重于学习输入数据与输出结果之间的映射关系,未能有效利用高层次的知识信息。在医学影像分析领域,高层次知识包括医生多年总结的诊断经验、人体器官形状知识、解剖特征点位置知识等,这些医学知识对于影像分析具有重要参考价值,却很难通过数据驱动型算法直接学习得到。本论文通过融入医学知识来提升医学影像分析算法的性能,在图像分割、
拓扑优化是结构优化方法的一种,是设计中的重要步骤,其目的是在设计域内为给定量的材料做最佳分布,该工作除了为设计者在概念设计阶段提供参考,还可对现有设计方案做进一步优化。伴随着20世纪以来的自动驾驶以及航空工业的发展,拓扑优化在越来越多的学科有了广泛的应用。拓扑优化的经典方法为SIMP算法,然而该方法的迭代次数多,收敛较慢,且运算复杂。为了解决这些问题,本文受到前人工作的启发,将传统的优化问题看作图
在土工三轴试验的力学性能测试过程中,土样体积变化的测量是非常重要的环节。对于饱和土,土样体积变化的测量技术相对成熟,可利用量筒间接测量流体吸入或排出饱和试样的体积来实现。然而,对于非饱和土,土样内部不可避免地存在空隙、气泡等,传统饱和土体积变化的测量手段已无法准确测量非饱和土的状况。数字图像技术因其测量精度高、不扰动试样,在土样体积变化测量方面具有显著的优势。本论文引入数字图像测量技术开展土样体积