基于深度学习的图像语义分割方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:czjjay
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类社会进入智能化的大数据时代,海量增长的图像资源和日益普及的智能设备都要求我们实现更加有效的图像语义解析,对图像内容进行快速、准确地理解。图像语义分割作为一种细粒度的图像语义解析任务,不仅能够判别图像中目标的语义信息,还能够准确地对其进行定位并描绘出其边缘,现已受到学术界的广泛关注,并在视频内容分析、无人驾驶、智能医疗等多个领域展现出了巨大的应用前景。  深度学习极大地推动了图像语义分割技术的发展,使我们能够学习到更具判别力的模型实现对图像内容的识别,然而要实现更加准确有效的分割算法依然存在着很多困难和挑战。首先,在不同光照、姿态、尺度、遮挡等情况下,目标所表现出的视觉多样性需要语义分割模型具有更为鲁棒、准确的判别能力。其次,作为一种细粒度的语义解析任务,语义分割模型的特征表达需要兼顾全局性与局部性。其中,全局性保证模型对目标做出正确的语义判别,而局部性用于实现对目标细节轮廓的精确保持。最后,目前大部分的图像语义分割方法都是基于全监督学习的,需要提供高成本的像素级语义标注,如何降低或弱化模型学习对标注样本的依赖,是一个值得探讨的研究问题。本文的研究工作主要围绕上述困难和挑战展开深入探讨,主要成果和贡献包含以下几个方面:  1.提出了一种联合目标候选区域判定与语义分割的深度学习框架。首先基于目标性分析初步定位图像中的目标,从而将对图像全图的语义分割转化为对若干个候选目标区域的语义分割。然后构建轻量反卷积神经网络实现更加精细的特征图上采样过程,从而获得更加精细的分割结果。通过在公开测试集上的实验分析比较,该模型相比于全卷积神经网络等经典分割模型,具有模型小、收敛快、性能好的特性。  2.提出了一种基于视频帧间的时空关联挖掘的深度学习框架,用于解决视频语义分割问题。该框架将单帧视频作为独立的图像通过反卷积网络进行特征图学习,再基于视频序列时空邻域内像素点间的语义相关性,学习一组状态转移矩阵对帧间信息进行融合,以获得更加准确的像素级语义判别。同时,将状态转移矩阵通过一组卷积层的形式实现,使之与反卷积网络整合成为统一的网络结构实现端到端的联合学习。该方法在多个视频语义分割数据库上取得了同期最好的分割结果。  3.提出了一种联合图像深度估计与语义分割的深度学习框架,充分考虑了图像深度信息和语义信息在模型学习中的互补特性。通过构建协同反卷积神经网络同时提取图像的深度和语义特征,并以外积的方式对其特征图进行融合,从而在一个统一的网络结构中完成两个任务的联合学习,实现它们的互相增强。同时,对于深度估计任务提出了更加合理的标签映射策略,使之从回归问题转化为分类问题,以提高模型训练效果。此外,还改进了全连接条件随机场作为后处理,使用预测得到的像素深度信息进一步优化语义分割的结果。该方法在多个室内场景数据库上获得了图像深度估计和语义分割两个任务的同期最好结果。  4.提出了一种基于半监督学习的图像语义分割方法,以降低算法对像素级标注样本的依赖。在标准全卷积神经网络的学习框架下,先使用少量的像素级标注样本学习目标的结构信息,再使用大量的图像级标注样本实现模型的进一步的优化,并通过使用图像级和像素级多粒度监督的协同学习,从全局和局部的角度约束模型对图像中目标的识别能力。该方法在降低标注工作负担的同时保证了模型具有良好的分割效果。
其他文献
自然现象或人工系统(比如雷达,生物工程,语音处理等)中产生的信号多为复杂的多成分信号。而将多成分信号分解为简单的基本信号之和一直是科学研究的中的热点。相对于多成分信号而
随着水下机器人的不断发展,对水下机器人运动能力和自主能力的要求也越来越高。本文针对一类自主仿生机器鱼,首先对其硬件系统改进,以增强其自主能力,其次对其各种游动步态进
从上世纪90年代开始,仿生嗅觉机器人逐渐成为国际上的研究热点,即模仿生物利用嗅觉感知搜索、跟踪水下或空气中化学等物质扩散形成的羽状流进而定位源头位置。利用机器人搭载
随着计算机技术的发展,虚拟现实技术逐渐广泛地应用于各行各业中。虚拟树木作为虚拟现实技术的一种,在娱乐、商业、教育等行业中作为虚拟场景的应用已经比较普遍。现代林业越
本文以一类仿生机器鱼为原型,建立了胸鳍固定和胸鳍可摆动两种简化模型。基于Kanso理论对两种模型进行了动力学建模,并进行了仿真验证。   首先,将机器鱼简化为多刚体铰接
激光全息图片一般被称为光学可变图像,现广泛应用于各行各业的防伪业务中。随着激光全息技术的不断发展,光学可变图像的发展主要有两个方向:一是与其他多种技术融合,将激光全息技
光子束聚焦无掩模光刻机是纳米量级器件和极大规模集成电路制造关键装备,图形发生器是该装备的核心部件,它的主要功能模块包括:窗口裁减,尺寸修正,场切割,黑白翻转,轮廓化以
学位
随着印刷行业飞速发展,印刷技术的不断进步,传统的印刷品检测方法已无法满足印刷生产的高度自动化、印刷品种类和图样多样化的要求。基于机器视觉的检测技术因其检测速度快、检
危害公共安全、妨碍社会正常秩序的涉贪涉恐涉黑犯罪是目前最为严重的犯罪行为,作案手段极其复杂,打击难度大,对公民和国家造成了极大损失。在实际侦查中,这类犯罪的作案人往往具
本文主要研究了一种水下自主机器人--自主机器鱼基于视觉的自主定位问题。旨在构建一个完整的视觉定位系统,使自主机器鱼能够依赖单个摄像头,通过采集到的场景图像来实时确定