基于深度估计的弱监督物体分割方法与应用

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:accbacc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像视频中的物体分割技术是众多计算机视觉应用的基础。为降低物体分割技术落地应用的数据标注成本,研究弱监督物体分割技术非常必要。传统弱监督分割技术往往只关心图像中物体和背景的外观特征,而忽略了图像中丰富的三维几何信息。为此,本文展开了基于图像深度估计的弱监督物体分割技术研究和应用。首先,针对当前深度估计模型主要聚焦于室内或无人驾驶场景,缺乏通用的开放场景下的深度估计数据集和模型,本文收集了开放场景单目深度估计的RGB-D训练数据集。其次,针对深度估计模型结构冗余且精度较低的问题,本文提出基于注意力机制的单目深度估计网络,减少了模型参数量,并进一步提高了深度估计模型生成的深度图像的质量。基于提出的RGB-D数据集和高效注意力网络,本文获得了优异的开放场景单目深度估计结果。接着,针对当前弱监督物体分割方法中无法有效利用物体和背景之间的三维几何信息,本文提出了联合深度估计的弱监督物体分割网络,通过在像素内部关系学习网络中注入深度估计信息,显著提升了模型的弱监督物体检测精度。该方法在训练过程中并不需要对每一张图标注深度信息,而是通过迁移学习的思路,将开放场景的单目深度估计模型直接应用于训练和测试图像,以获取类别无关的三维几何特征来辅助弱监督分割。最后,将本文在算法层面上提出的创新性方法进行扩展和应用,从工程层面上探究了深度信息对自动驾驶场景中的车辆识别的帮助作用。总而言之,本文为降低基于深度学习的物体分割方法的数据标注成本,在弱监督物体分割网络中引入了单目深度估计。在这个全新的视角下,本文就实验数据集采集、单目深度估计网络设计、联合深度估计的弱监督分割网络设计、自动驾驶场景应用等展开了全面的研究,并取得了良好的实验结果。这些研究将进一步促进弱监督物体分割技术的算法发展和落地应用。
其他文献
神经网络架构搜索是自动化机器学习领域一项重要的应用。传统深度学习都是由专家人工设计并调参,神经网络架构搜索技术是为了根据目标数据集自动化搜索适合硬件特性以及数据集任务的网络架构,是轻量级硬件设备中移植算法的重要工具。但神经网络架构搜索存在效率不高、可迁移性差等问题。本文针对神经网络架构搜索中高效性以及实用性问题,提出了一个面向华为昇腾芯片的可微分神经网络架构搜索方法,主要贡献如下:(1)提出了基于
学位
文字是人类最伟大的发明之一,它不仅是人类语言的书面表达形式,更是一种文化传承。一方面,文字作为一种重要的信息媒介,如图书、文档、票据等包含大量文字,能够方便人们的信息交流,从而显著提高办公效率。另一方面,图像、视频中的文字携带大量的语义信息,通过识别其中的文字,有助于对特殊场景的理解。当今信息时代,文字的重要性愈加显著。由于中文字符类间相似性高,类内方差大,并且字符之间通常存在很大的数据不平衡问题
学位
步态识别在生物识别中是一项具有挑战性和吸引力的任务,研究在监控视频数据下,根据行人行走姿态的周期性变化特征对其身份进行有效识别。同时,其远距离感知能力和良好的隐蔽性也在智能安防领域有着重大意义。步态识别的早期方法主要是基于外观轮廓,而轮廓形状并非一成不变,由于光照变化,穿着衣物或其他外部因素的影响,其轮廓可能会发生剧烈变化。而基于骨架的步态识别方法则可以较少的受外部因素影响,只是目前骨架数据提取及
学位
大规模MIMO技术通过在基站端部署大规模的天线阵列同时服务多个用户,可以显著提升系统的频谱利用效率以及数据传输速率。大规模MIMO系统的性能严重依赖于CSI,因此准确的CSI的获取是系统性能提升的关键。由于大规模MIMO系统中信道具有快变和非平稳的特性,利用传统信道估计方法会出现CSI过时的问题。针对大规模MIMO系统中获取准确CSI的问题,本文对大规模MIMO系统下信道估计方法以及信道预测方法进
学位
随着互联网的发展与普及,人们的版权保护意识愈发强烈。可见水印是一种被广泛运用的图像版权保护方式。研究如何有效地去除这些水印可为发明更健壮的水印图像技术提供启示。此外,可见水印影响了图像质量以及视觉效果,不利于某些基础计算机视觉任务,如文字检测识别、图像分割等任务的进行。鉴于此,亟需展开图像水印去除的研究。水印的形状、尺寸、位置、透明度等变化的特点给水印去除任务带来了困难。虽然目前存在的一些主流图像
学位
人脸属性编辑是指更改人脸图像的某个或者某些属性,比如姿态、表情、年龄等,而其它的属性不发生变化。目前,人脸属性编辑在社交娱乐,人机交互等场景具有广泛的应用。诸如美颜、换脸、虚拟人助理等已经在手机端被广泛使用。随着计算机图形学和计算机视觉,特别是生成对抗网络的快速发展,人脸属性编辑算法也层出不穷。然而,其中的有些算法对于人脸属性的解耦不充分,并且需要大规模的人脸属性标注数据来训练网络,这限制了这类算
学位
细粒度图像分类是计算机视觉研究的热门领域之一,其研究成果是众多日常应用(如图片搜索、在线购物等)的技术基础。相较于常规的图像分类技术,细粒度图像分类技术需要具备更强的对图像中关键线索定位、识别以及推理的能力。文字带有丰富的语义信息,对当前场景的理解和定义具有正向作用,是非常重要的线索之一。结合文字语义和视觉特征两种模态信息进行图像分类将显著提高细粒度分类效果,虽然目前已有不少基于多模态融合的相关工
学位
目的 探讨眩晕病的临床治疗方法,评价中医辨证治疗方法的应用效果。方法 抽取我院2019年3月至2020年12月收治的60例眩晕症患者作为研究对象,通过计算机抽签进行分组,随机分为观察组和对照组各30例。观察组应用中医辨证治疗方法,基于中医理论,对不同症状的患者采用不同的治疗措施。对照组应用维生素B、异丙嗪、盐酸氟桂利嗪胶囊、甲磺酸倍他司汀片等药物进行治疗。对比两组眩晕病患者的症状改善情况、治疗有效
期刊
医学图像分割是诸多临床应用中的关键技术,例如疾病诊断,手术计划,疗效评估等。近年来,基于卷积神经网络(Convolutional Neural Network,CNN)的深度学习方法在医学影像分割中取得了巨大的成功。然而,3D计算机断层扫描影像(Computer Tomography,CT)中小目标分割(如胰腺器官、肺炎小病灶等)依然面临着挑战:1)待分割目标在整个3D CT影像中占据很小的体积(
学位
为规范眩晕症的科学用药,中国医药教育协会眩晕专业委员会特成立专家小组,在纳入现有医学科学证据的基础上,结合专家丰富的临床经验,经反复讨论后形成《甲磺酸倍他司汀治疗眩晕症的专家共识》。本共识包括组胺类药物的药理基础以及甲磺酸倍他司汀在常见眩晕疾病(如良性阵发性位置性眩晕、梅尼埃病、前庭神经炎等)中的用药推荐等级、剂量、疗程、复查方法、特殊人群用药、药物不良反应等方面,旨在帮助医生提升临床实践水平。
期刊