论文部分内容阅读
图像语义分割是为图像中每个像素点标注一个物体类别标签,它是人工智能研究的重要分支,已经应用于多个领域。例如,无人驾驶中的环境场景分割和医疗影像分析中的病变器官分割。随着深度卷积神经网络(Deep Convolution Neural Network,DCNN)在物体检测、分类和识别任务中取得较大进展,研究人员逐步尝试将DCNN的分类能力应用到图像语义分割任务。近年,研究人员利用编解码结构思想,设计了全卷积神经网络。在编码过程中,网络不断使用卷积和池化层提取图像高层次特征;在解码过程中,利用反卷积层恢复物体轮廓。由于编码的下采样操作会丢失图像信息,这导致解码的上采样对恢复物体轮廓细节的效果较差。密集型条件随机场作为分割后端处理部分,能有效修正前端的错误分割,但参数学习是独立的。针对图像语义分割任务,本文在研究端对端可训练网络基础上,设计并实现两种基于条件随机场的后端网络模块。由前端DCNN网络预测基础的像素概率,后端条件随机场网络结合图像局部先验信息修正预测结果。本文具体研究内容包括:(1)基于全连接密集型条件随机场的端对端可训练网络研究:为了构建网络,分析前后两端融合过程,前端网络仅使用DCNN,DCNN通过对图像处理产生初步预测的分数映射图,其中每点值表示该像素点被标注为某类物体的概率。后端网络模块基于条件随机场。在本文研究中,首先对密集型条件随机场模型构建方法和求解算法进行分析。接着,为了将模型融入网络,分析和分解算法步骤,并将其用网络层进行实现。最后,研究将整体迭代算法转化为基于条件随机场的循环神经网络结构(CRFRNN)的过程,融合前端网络和后端条件随机场模块,从而构建端对端网络。(2)基于两种高维高斯滤波的CRF-RNN实现研究:本文实现两种使用高维高斯滤波实现CRF-RNN模块。为了加速CRF-RNN模块中信息传递步骤的计算,首先利用Permutohedral Lattice方法加速模块的计算,Permutohedral Lattice方法通过splat步骤将输入特征映射到高维空间并分散输入值至晶格顶点,在blur步骤中对顶点上值使用分离高斯卷积,最后通slice步骤将顶点上值聚集并映射回原特征点上。为了更好传递信息,本文将blur步骤中的分离高斯卷积替换为可学习的分离卷积核。为了减少执行时间,进而使用Gaussian KD-Tree方法实现CRF-RNN模块。Gaussian KDTree方法根据输入特征构建树,在splat步骤通过特征查询将输入值采样到叶子节点上,在slice步骤通过特征查询将叶子节点上值聚合回原点。针对基于密集型条件随机场的端对端可训练网络,本文基于PASCAL VOC 2012数据集进行测试,具体包括:测试与分析基于Permutohedral Lattice方法且具有可学习卷积核的CRF-RNN模块;测试与分析基于Gaussian KD-Tree方法的CRF-RNN模块的。实验结果表明,本文设计实现的基于密集型条件随机场的端对端可训练网络,可将图像分割指标提升至72.6%,同时计算效率提升20%。