【摘 要】
:
近年来,随着光场技术的快速发展,基于多聚焦特征的光场深度估计方法取得了显著的进展。焦点堆栈图像记录了场景在不同深度下的聚焦程度。一系列聚焦在不同深度的焦点切片包含了丰富的空间视差信息,能够很好地揭示场景的三维结构。然而,在多聚焦特征提取中,传统方法存在鲁棒性差、精度低的缺点。现有基于卷积神经网络的方法仅仅利用标准卷积来学习可扩展到整个焦点堆栈的滤波器,忽略了焦点切片之间的空间相关性,导致复杂场景下
论文部分内容阅读
近年来,随着光场技术的快速发展,基于多聚焦特征的光场深度估计方法取得了显著的进展。焦点堆栈图像记录了场景在不同深度下的聚焦程度。一系列聚焦在不同深度的焦点切片包含了丰富的空间视差信息,能够很好地揭示场景的三维结构。然而,在多聚焦特征提取中,传统方法存在鲁棒性差、精度低的缺点。现有基于卷积神经网络的方法仅仅利用标准卷积来学习可扩展到整个焦点堆栈的滤波器,忽略了焦点切片之间的空间相关性,导致复杂场景下深度预测的可靠性较低且含有大量噪声。本论文针对深度估计中如何充分学习多聚焦特征以捕捉光场数据与深度之间固有的关联,设计了基于动态特征融合的光场深度估计网络和基于局部—全局特征融合的光场深度估计网络。论文的主要研究内容和创新点如下:针对复杂场景下多聚焦特征提取不准确导致信息丢失的问题,本论文提出了基于动态特征融合的光场深度估计网络,通过改进Conv GRU以适应不同焦点切片中多尺度聚焦区域,筛选焦点堆栈中重要信息,剔除冗余信息,序列化学习焦点切片之间的空间相关性。此外,考虑到焦点堆栈中包含丰富的焦点信息,RGB图像中包含全局结构信息,本论文设计了多模态动态融合模块以自适应方式动态融合RGB特征和多聚焦特征之间的多模态信息,使网络能够适应各种不同的输入场景从而提高光场深度估计的鲁棒性。实验结果表明该方法在6个深度估计评估指标上优于当前光场深度估计的主流方法。此外,通过在手机数据集上的定性实验进一步表明,该方法可以成功地应用于普通消费级相机数据。为了进一步提高深度估计精度,减少网络复杂性,本论文提出了基于局部—全局特征融合的光场深度估计网络,分别从局部和全局两个角度充分学习焦点切片之间的相关性。首先设计了局部特征传递模块捕获焦点切片中的隐含的多聚焦线索,学习相邻焦点切片之间的几何关系以适应深度的变化。然后设计了全局特征感知模块学习整个焦点切片之间的相关性,通过分组后整合的方法充分利用所有切片特征,避免局部特征学习时的细节丢失问题。实验证明所提出的方法能有效改善光场深度估计性能,在数值指标和可视化效果上相对其他方法都有较大提升。与基于动态特征融合的光场深度估计网络相比,基于局部—全局特征融合的光场深度估计网络误差更小,尤其是在RMSE指标上误差降低了约6%,因此更具优势。
其他文献
显著性目标检测对于图像理解的进步至关重要,并且已在各种计算机视觉和图像处理任务中展现出巨大的潜力。现有的显著性目标检测算法根据输入图像类型可以分为RGB、RGB-D和光场方法三类。不同于RGB数据,RGB-D和光场数据通过深度图、多视角图和焦点堆栈提供了场景的精确几何信息,如此丰富的几何信息可以为显著性目标检测在挑战性场景下提供有效的显著性特征。然而,显著性目标检测作为许多任务的预处理步骤,要求高
随着数据规模和计算资源的快速增长,机器学习在理论和实践两方面都取得了长足进展。传统机器学习算法需要大量的标注数据用于训练,然而在诸多实际应用中获取大量标注数据的代价非常高。此外,传统机器学习算法通常依赖于训练数据和测试数据服从独立同分布这一假设,然而在实际应用中上述假设往往难以成立。域适应放宽了这一假设,能够从具有丰富标签数据的相关领域进行知识迁移与复用,是解决目标任务标注数据稀缺的一种基础方法。
图像文本匹配在连接视觉和语言方面起着至关重要的作用。目前的一部分先进方法试图通过丰富的特征编码推断更有视觉语义性的全局对齐信息;而另一部分模型通过采用跨模态的注意力单元来捕捉区域和单词之间的潜在局部对应关系,然后将所有的对齐信息整合得到最终的相似度。无论是开发图像和文本之间的全局对齐,还是探索区域和单词之间的细粒度对应关系,都取得了令人印象深刻的成功。然而,这些工作都面临两个亟需解决的问题。首先,
随着社会经济和科技的发展,越来越多的监控摄像头被安装在社会的各个角落,这些摄像头在维护社会治安方面起到了巨大作用。然而很多时候如何高效地利用好这些数据却是一项十分艰巨的任务,使用科技手段以减少人力是一个很自然的选择。因此,针对自动跟踪并关联多个摄像头下面多个行人技术的研究有着十分重要的现实意义,该技术被称为多摄像头多行人跟踪。多摄像头多行人跟踪是一个复杂的任务,该技术可以对不同摄像头下面的多个行人
基于深度学习的三维目标检测方法需要大规模的标注数据才能达到良好的性能,而三维框的标注需要标注者在不完整的2.5D稀疏点云下,凭经验不断调整其边界,标注难度大且容易引入标注误差。为了解决标注难问题,本文对自监督三维目标检测方法进行深入研究,主要分为以下三个部分:(1)为了解决三维目标检测对大规模标注数据的依赖和标注难问题,本文设计了“预测—渲染—比较”三段式结构的自监督双目三维目标检测网络,只需要简
海洋监测系统主要负责对海洋情况进行视觉监视和参数检测。随着人工智能技术的崛起,将深度学习技术应用于海浪检测上的研究成为了海洋监测系统的发展趋势。目前将深度学习应用在海浪参数检测上的研究大多数只关注到二维卷积神经网络对海浪图像的二维特征提取,网络模型只能学习到海浪图像的空间信息。为了能对海浪运动的时间信息加以利用,本文通过将二维卷积核增加时间维度扩展成三维卷积核,提出一种基于三维卷积核的神经网络模型
视频分割方法对于众多计算机视觉任务非常重要,尤其是在影音娱乐的视频交互应用中。基于深度学习的视频分割方法在测试数据集上显示出比传统方法更高的准确性,但在大多数实际应用中为了自动校正抖动伪像,而付出了更多的时间成本,此外高质量且具有完整标注的视频序列和大规模复杂环境的视频数据集都十分稀缺。本文研究了这种抖动伪影如何降低视频分割结果的视觉质量,发现以神经网络学习为主的算法受到标注质量的影响更大,人工在
Ⅱ型糖尿病是一种慢性代谢性疾病,影响全世界近1亿人。在过去的20年里,确诊患有Ⅱ型糖尿病的成人数量飞速增长。而对糖尿病患者来说,患病后可能会引起的其他并发症是医疗花费主要压力,也是造成患者死亡的最大因素。如果可以提前预测出糖尿病患者罹患并发症的情况,将给医生和患者提供很大的方便。也将大大降低医疗费用支出。当下医学上对于糖尿病并发症的检测,还停留在患者表现出症状以后再进行专门医学检测的阶段。一方面随
手部姿态估计在人机交互、交流表达、机器人抓取等众多场景具有重要应用,也是计算机视觉领域中的研究热点。由于彩色图像缺少绝对的深度信息,从彩色图像中估计手部姿态是一种高维非线性映射,同时人手本身具有自相似和自遮挡等问题,因此从彩色图像估计手部姿态仍然是一个充满挑战的任务。本文基于双目彩色图像对手部姿态估计进行分析和研究,研究内容主要分为以下三个部分:(1)针对从二维图像到空间坐标映射的不确定性问题,本
多目标跟踪是计算机视觉领域的研究热点之一,它在自动驾驶、视频监控、人机交互等领域被广泛应用。其主要任务是在一段视频序列中,将不同视频帧的同一个目标对应起来,每个目标形成不同的运动轨迹。主流的多目标跟踪技术几乎都是基于Detection-Based Tracking(DBT)框架,即先利用检测器识别出感兴趣的目标,再利用嵌入模型(Re-ID)预测目标外观的特征向量,根据检测结果与轨迹外观特征的相似度