论文部分内容阅读
随着人工智能技术的高速发展,“感知城市”这一词汇渐渐被人们关注并熟知。图像语义分割技术是实现“感知城市”的一种效率高、成本低的手段,在许多领域得到广泛应用。比如,通过对飞机的航拍图像进行语义分割以辅助飞行员确定安全着陆点;对行车记录仪传输图像进行语义分割以帮助驾驶员规划安全可靠的行车路线。近年来,基于深层卷积神经网络的方法在语义分割问题上取得了一系列的突破。但实际中,训练所得的分割模型往往参数量过于庞大,可移植性差,不利于实际工程应用;同时由于城市街道场景图像复杂导致网络整体的分割结果不够理想。本文针对上述问题,深入研究了城市街道场景下的图像语义分割方法,主要工作如下:从模型轻量化的角度出发,提出一种针对复杂场景下的轻量多通道特征融合的语义分割模型。首先,本文在Deeplab V2的基础上进行了改进,将Deeplab V2网络与多通道特征融合结构RefineNet结合,有效改善了模型的分割细节。然后,在此基础上提出轻量化改进,将深度可分离卷积引入空洞空间金字塔池化模型(ASPP)与RefineNet并提出轻量化结构Light-ASPP与Light-RefineNet(V1、V2),有效减少了模型参数量。实验结果表明,本文提出的轻量多通道特征融合的语义分割模型能够在较少参数量的情况下仍然获得较好的分割效果,从而满足一般的实际应用。为了能够提取图像中全面、有效的特征信息,进一步提高算法在城市街道场景下的分割准确性,提出一种基于可变形卷积特征融合的语义分割模型。在编码器上,将比ResNet更轻量的模型Xception作为基准模型,并使用空洞金字塔池化模型提取多尺度特征来更好地对不同大小的目标进行分割;在解码器上,提出一种基于可变形卷积的特征融合解码器。将可变形卷积引入解码器结构来更加精准地提取深、浅层特征信息,并结合链式残差池化模块对融合后的特征进一步精调以得到更加精准的分割结果。实验结果表明,本文提出的基于可变形卷积的特征融合分割模型,能够准确地对城市街道场景进行分割,在分割细节方面有较好的改善,达到了主流的效果。综上所述,本文提出的城市街道场景下的语义分割方法无论在实际应用还是在高精度分割方面都能达到不错的效果,能够满足大多数实际需求,可扩展性强。