基于深度学习的图像语义分割研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:k5105320
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着科学技术的持续发展,图像处理技术逐渐走进人们的生活,例如目标检测、人脸识别、行为识别等。而语义分割作为计算机领域中不可缺少的一项任务也发挥了巨大作用,它主要是为图像中每个像素分配语义标签,使计算机不仅能够标记出正确类别,而且能够明确目标所在的位置。目前,语义分割技术在自动驾驶、场景解析、视频监测等领域已经得到了十分广泛的应用,因此如何提高识别的准确率以及如何以更低的时间复杂度和空间复杂度,高效地识别出每个像素的类别成为语义分割任务中研究的两大重点。本文主要研究图像语义分割技术,文中首先介绍了深度学习及卷积神经网络的基础理论,并且对FCN网络的语义分割过程做了详细解析,之后针对自然图像和遥感影像分别对骨干网络Seg Net作了相应改进,并做了全面的实验以验证其性能,最终使模型的分割效果得到了显著的提升。本文进行的研究工作主要分为以下几个内容:首先针对自然图像提出了一些方法:(1)为了解决骨干模型中下采样信息丢失和上采样无法恢复完整信息的问题,文中提出了一种基于注意力机制的层次化特征融合方法,该方法主要是将编码器的特征图和与其对应的译码器特征图相融合,逐渐恢复上采样信息,并且在融合层添加了注意力机制,以获取编码器特征图中每个像素的关注度,从而提高分割性能。(2)为了获取特征图中不同尺度范围的上下文信息,提出了基于深度可分离卷积的多尺度特征提取模块,该模块主要是利用不同大小的卷积核提取不同范围的信息,同时利用深度可分离卷积减少参数量。(3)为了提高分割精度,最后将两种方法同时应用于编码器-译码器结构中,提出一种密集分割网络Dense Seg Net,并在Caffe深度学习框架下对每种方法均做了实验验证。最终模型的交并比在Pascal VOC 2012数据集上达到了79.3%,相比于骨干模型Seg Net,性能提升了19.4%。之后针对遥感影像对Dense Seg Net网络作了相应优化:(1)为了解决遥感影像种类繁杂、类别易混淆的问题,文中在Dense Seg Net的基础上,提出了一种树型网络模型Tree Net,该模型主要具有四个分支,分别来自自然图像模型不同网络深度的输出,利用浅层网络提取类间差距较大的特征,利用深层网络提取类间差距较小的特征,从而实现简单类别到复杂类别的分割。(2)此外文中最初采用空洞卷积提高分辨率,而对空洞卷积的使用则大大增加了参数量,因此为了减少模型的计算量和空间占用率,文中又提出了一种金字塔上采样方法,在不降低精度的情况下,有效降低了参数量。(3)最后针对类别不平衡问题采用了加权焦点交叉熵损失函数,并对树型模型各分支的损失函数求和取平均值作为整体损失。最终平均F1分数在本文制作的中卫数据集上达到80.5%,并且模型参数量减少了31.2M。
其他文献
素描人脸识别是指通过将素描人脸图像在人脸照片库中与照片进行比对来识别素描图像对应的身份,其主要应用在锁定嫌犯身份等领域。与针对同一模态的传统人脸识别相比较,素描人脸识别旨在解决不同模态间的差异问题,其应用范围更广。合成素描人脸识别是素描人脸识别领域中的一个分支,合成素描相较于其他类素描,因其具有图片合成速度快、成本低的特点,故而受到了刑侦领域的喜爱,同时也引起了越来越多研究人员的关注。目前,现有的
零样本图像识别旨在解决在没有标注数据的情况下完成目标类别的识别问题。受启发于人类的学习范式,零样本图像识别方法借助类别之间的语义关联性,将从已知类别数据中学习到的知识迁移到未知类别数据,从而完成对未知类别数据的识别任务。目前大多数零样本图像识别方法试图将图像的视觉特征和类别的语义特征映射到一个共享嵌入空间,然后在共享嵌入空间中使用最近邻搜索算法确定图像的类别标签。由于训练集和测试集中包含的类别不同
钛合金由于其较高的比强度、优良的耐蚀性以及优异的高温性能等优点,被广泛的运用于航空、航天等领域。但是,由于钛合金具有较低的导热系数、较高的化学活性使得其在传统工艺
随着无线通信技术的高速发展,为大量用户提供高速率高质量的数据服务成为下一代无线通信系统的主要目标。多点协作(Coordinated Multi-Point,CoMP)传输技术利用发射端间的协作,可以有效提高系统容量和覆盖范围。但在实际的通信系统中,协作发射端只能得到非理想的发射端信道状态信息(Channel State Information at the Transmitter,CSIT),从而
本文旨在研究思维导图写作教学模式对小学高年级学生写作质量的影响,具体的说,是对写作内容、结构和语言的影响。基于图式理论、建构主义理论和思维导图教学理论,本文通过研究思维导图写作教学模式对英语写作的影响,以便教师能采用思维导图写作教学模式来提高学生的写作质量。本研究共探讨以下三个问题:1.思维导图写作教学模式对小学高年级学生的英语写作的内容有何影响?2.思维导图写作教学模式对小学高年级学生的英语写作
随着图像处理技术的不断发展,视频监控系统广泛地应用在智能交通、平安城市、飞机目标跟踪等诸多领域,在日常生活和国防建设中都扮演着重要角色。除了高数据量带来的视频质量和清晰度问题,不同应用场景带来的不同格式视频源兼容性问题也是亟待解决的问题之一。能够兼容多格式输入的视频压缩传输系统有着广阔的应用前景和市场需求。本文基于此背景,研究设计并实现基于H.264视频编码的支持多格式输入的双路视频压缩传输系统。
量子计算利用量子力学现象(例如叠加和纠缠)进行计算。量子计算是由量子电路实现的。量子电路基于量子比特和量子门,其计算是通过使用量子门操纵量子位来完成的。量子计算机可以通过理论或物理的方式实现。在物理实现的基础上,研究者可以访问量子模拟器或者真正的量子计算机。随着近年来量子理论和技术的快速发展,特别是一些量子云计算平台的出现,越来越多的研究者不再满足量子计算(尤其是量子算法)的理论推导和仿真验证,而
大量的微型、低功耗传感器节点通过自组的方式形成了无线传感网,其负责对监测范围内的目标进行感知,并将所获取的数据通过多跳传播的方式上传到Sink节点(汇聚节点)。无线传感网具有部署方便、自组织性高的特点,被广泛地应用于各种实时监测的任务中。在无线传感网中,传感器节点通常采用自身所携带的电池进行供能,一旦能量耗尽,节点将会失效。当网络中出现失效节点时,网络的连通性、覆盖率等性能就会急剧地下降。路由算法
石墨烯是一种高机械强度的二维材料,具有优异的电子传导、光学、力学特性,在材料科学、纳米加工、能源领域、医学和药物传递等领域具有重要的应用前景。石墨烯中碳原子为sp2杂化,呈六边形蜂窝网状晶格结构;每个碳原子还有一个电子未参与杂化,使得石墨烯具有优异的导电性;同时石墨烯还具有较大的比表面积,在能源材料科学领域具有很好的发展前景。石墨烯有两个表面,通过对其进行功能化,能够得到具有不同功能的石墨烯基材料
漆树是我国特色资源树种之一,在我国分布范围广,种植面积大。从漆树籽皮中提取的漆蜡主要是甘油三酯,广泛用于日化、油墨、润滑、增塑和保鲜等领域,但目前我国的漆蜡加工落后