论文部分内容阅读
计算机视觉因为其广泛的应用场景而被广大学者所关注,图像语义分割是计算机视觉领域中一项难度较大、实用性较强的技术。近几年来,由于智能移动终端的普及以及无线通信技术的不断发展,RGB图像数量的爆炸式增长使得图像语义分割的研究也进展得越来越迅速。深度学习(Deep learning,DL)最近在高级视觉任务中展现出了强大的性能,例如图像分类和目标物体检测。全卷积神经网络(Fully convolutional networks,FCN)提出之后,深度神经网络(Deep neural network,DNN)在图像语义分割问题上取得了质的飞跃。本文的目的就是设计一种高性能的图像语义分割算法来对图像进行语义分割,虽然目前大多数基于深度学习方法的图像语义分割技术已经取得了较大的成功,但是对图像中物体的定位还不够精确。因此,本文构造了一个深度神经网络模型,由一个深度卷积神经网络(Deep convolutional neural network,DCNN)和一个循环神经网络(Recurrent neural network,RNN)构成,对现在存在的问题做了一定程度上的改善。主要工作可以分为两个部分:第一,提出了一个用于特征提取的深度卷积神经网络。首先,在这个特征提取网络中利用了扩张卷积和下采样卷积技术,平衡了特征映射分辨率和感受野的冲突。然后,在这个深度神经网络中把卷积、扩张卷积、下采样卷积、批归一化等技术集成在残差模块中,构成了网络的基本单元,该网络在自身深度较大的情况下,不会有大的训练误差和测试误差。这个特征提取网络能获得多尺度的特征并能防止图像细节信息的丢失。第二,构建了一个端到端的用于图像语义分割的深度神经网络。首先,在深度卷积神经网络中加入多尺度特征融合技术,使得网络在训练和预测的过程中都有多尺度特征融合的参与,提高网络的精确度。其次,引入了将全连接条件随机场转化成循环神经网络的方法,将深度卷积神经网络和全连接条件随机场(Fully connected conditional random field)整合成了一个端到端的深度神经网络。这不仅使分割图的轮廓变得更加精细,也简化了训练流程,缩短了实验周期。本文提出的深度神经网络在公开的PASCAL VOC2012数据集中的图像语义分割数据集上得到了验证,并在其中的测试集上取得了mIOU为78.1%的成绩。