基于深度学习的图像语义分割研究

来源 :福州大学 | 被引量 : 1次 | 上传用户:bisha1007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着深度学习技术的不断发展,运用深度学习技术对图像进行语义分割已成为人工智能领域的热点研究方向,其研究成果也广泛地运用于自动驾驶、机器人导航、医学图像分析等。深度语义分割模型网络结构比较大,层数和参数数量比较多,所提取的不同层特征也是不一样的。浅层特征一般是图像低层次的边界特征,这些特征对于图像中物体的定位是很有利的。高层特征一般是高层次抽象的图像语义信息,这种特征有利于图像区域中不同物体的分类识别,但却丢失了较多的空间信息。图像语义分割不仅要给图像中不同的物体进行精确的定位分割,还要识别出它们的语义类别。因此,本文就如何利用深度分割模型高低层的特征以及如何改变模型网络结构、降低模型参数数量等方面进行研究。本文的主要工作和创新之处:(1)在Linux环境下搭建目前主流的深度学习框架Caffe。(2)针对深度分割模型网络结构庞大,计算复杂的问题,提出带有扩张卷积的语义分割模型,并设计其分割网络结构。运用扩张卷积来提取模型参数最多的FC6层的特征,在Caffe框架下搭建并训练该模型。实验结果表明,所提模型能够保持较高的分割性能,同时较大地减少参数数量和计算复杂度。(3)探究融合高层特征对于语义分割性能的影响,设计并改造模型结构。由于训练数据集的缺乏,采用迁移学习在公开的斯坦福8类户外场景数据集中训练FCN32s模型和融合高层特征的FCN32s模型、FCN8s模型和融合高层特征的FCN8s模型。通过对实验所得结果的比较和分析可知,适当的融合一些高层特征可以有效的提升语义分割的性能,如果融合的太多,对于语义分割性能的提升并不是很显著。(4)针对现今大多数深度分割模型在利用不同层特征时,只考虑对应像素位置处的特征进行简单相加的情况,提出基于加权融合的语义分割方法。该方法通过将VGG16分类模型改造为分割模型,并在上采样融合不同层特征时,新建一个权重控制模块,控制每个位置特征的融合。在Caffe框架下搭建并训练该模型,实验结果表明,所设计的模型能够更充分利用不同层的特征,更有利于不同物体边界和同类物体内部区域的正确分割,提升户外场景图像语义分割性能。
其他文献
无线传感器网络(Wireless Sensor Networks,WSNs)是一种由大量微型传感器节点组成,通过无线通信方式进行数据的获取,处理和传输的新型技术。随着近年来的快速发展和日趋成熟,使得该项技术不仅仅局限于军事领域,而且在民用等其他领域存在巨大的潜力,因此,保证WSNs中数据的安全传输显的尤为重要。选择性转发攻击作为WSNs中常见的内部攻击类型,经常和别的内部攻击相结合对网络产生更大的
近年来,人工神经网络的研究已经成为人工智能领域的热点之一,并且该领域的研究成果已经被广泛地应用到各个具体问题中。比如图像识别、自动翻译、语音信号识别等。本文提出了一种新的前馈神经网络优化算法--部分学习机(Partial Learning Machine,PLM)。PLM是一种针对前馈神经网络的优化算法,且只对网络的部分参数进行优化,故称之为部分学习机。PLM算法所优化的网络参数为隐层神经元偏置和
据统计,每年大约有三分之一 65岁以上的老人会因跌倒而受伤,如果老人在跌倒之后得不到及时救助,会引发更严重的后果。随着智能可穿戴设备的普及,人体运动状态监测已引起人们的关注。现有的穿戴设备大都用来检测运动数据,但不能对人体跌倒行为进行有效监测,因此设计一个精度较高的跌倒检测系统尤为重要。本文在Android平台上,利用加速度传感器采集人体运动信息,对人体运动模式进行识别,并采用机器学习方法对采集的
随着国家越来越重视海洋领域,海洋水声传感器网络也在水下相关领域发现重要的探索价值。其中水下目标有效定位是水声传感网络的重要应用,其主要作用是得到水下目标的有效位置,为接下来的深入研究做铺垫。但是,由于水下复杂环境和噪声的存在,目标定位任务大大增加。本文从实现水下目标精确定位的角度出发,利用水声传感器网络的优势,通过设计一种适用的传感器网络和提出一种异步时钟下的信息交互方式,重新整合处理目标信息,达
多视点视频结合虚拟现实(Virtual Reality,VR)技术的呈现形式,相比于传统视频能给用户提供更高质量的交互性和沉浸感,视觉效果和漫游体验也会更好。在保证交互性和沉浸感的同
随着社会信息化的发展,移动通信网络数据的剧增,网络的故障告警日志量日益增多,通信运营商难以从数据量庞大、网络节点连接关系复杂的网络日志中,高效精准地挖掘出关联信息。不仅如此,如果通信网络的维护和故障处理不及时,就不能满足用户对网络稳定性的需求,用户体验受到影响。通信网络的健壮性的影响因素也丞待研究。本论文基于以上背景针对存在的问题进行了基于复杂网络理论的信息挖掘研究,主要的研究工作如下:1、针对通
图像分割作为一项基础的数字图像处理技术,广泛应用于生产生活的各个领域。针对传统活动轮廓模型中初始轮廓线选择,噪声污染,复杂的纹理边界和图像灰度不均匀的问题进行了研究,充分利用多种统计信息,将混合活动模型和多相水平集结合起来,提出了改进的拉普拉斯自适应多相分割模型和基于局部和全局拟合的自适应多相分割模型。在改进的拉普拉斯自适应多相分割模型中,利用梯度倒数加权平滑和中值滤波结合对图像预处理,引入结构张
随着立体3D内容不断冲击人们的视觉,3D媒体逐渐变得流行,图像显示适应技术应运而生。图像适应方法研究如何将图像的内容改变以适应不同尺寸和宽高比的数字显示设备,并尽可能
P2P网络信贷有别于传统的银行借贷模式,是近年来出现的将金融服务和互联网结合的一种互联网金融服务模式。随着P2P网络信贷平台借款速度快的优势,其已迅速成为个人和企业借贷的一种重要来源。P2P网络信贷平台帮助中小微型企业解决了融资难的问题,使民间资本投资难和的问题得到了有效解决,为个人和中小微型企业短期借款提供了来源。P2P网络信贷行业在为人们提供需求的同时,自身也出现了问题,给借款人和平台以及市场
偏移正交幅度调制滤波器组多载波调制(Filter bank Multicarrier/offset quadrature amplitude modulation,FBMC/OQAM)是一种基于良好时频对称特性滤波器调制的多载波技术,其具有频谱利用率高、符号间干扰及子载波间干扰小的特点。但FBMC相邻子载波间的正交性仅发生在实数域,系统存在固有虚部干扰(IMI)。IMI叠加相位噪声和频偏产生新的串