论文部分内容阅读
随着人工智能的高速发展,各主要经济体相继出台了促进人工智能发展的国家级战略规划。作为我国人工智能发展规划中重要组成部分,自主无人系统(如无人驾驶、移动机器人等)因此受到了企业与高校的广泛关注。为满足自主无人系统的场景理解需求,旨在为像素提供类别标记(如汽车、交通灯)的语义分割随之成为研究热点。近年来,深度学习的快速发展极大提升了语义分割的精度,然而,得益于实验平台丰富的计算资源,大部分高精度模型忽略了模型效率,因此难以应用于以嵌入式平台为主的自主无人终端。为此,针对自主无人驾驶场景理解需求,本文重点研究面向实际应用的高效语义分割模型,本文主要创新与贡献如下。
深入分析了深度网络计算耗费来源,发现深度网络计算耗费大部分来源于其宽度(即特征通道),因此提出了实时网络宜窄且深的设计理念;此外,鉴于传统卷积运算耗费基数过大,引入分通道独立卷积设计了新型基础卷积模块,并结合上述宜窄且深的实时网络设计理念,构建了适用于语义分割的实时特征提取网络NarrowwhileDeepNetwork45(NDNet45)。相比经典网络ResNet18,在保持分割性能可比的前提下,NDNet45参数量缩减约18倍,浮点运算量缩减约37倍,大大提高了语义分割效率。
提出了基于模型与数据驱动的实时语义分割方案。在模型上,利用全卷积网络FCN8架构平均特征分辨率低的优点,提出了预测自适应融合的改进FCN8框架,在仅引入少量额外计算耗费的前提下,实现了模型性能的提升;在数据上,针对小目标对交通场景理解的重要性而现有实时模型小目标分割精度偏低的问题,深入分析了交通场景图像的特点,发现交通场景样本分布不均衡,且呈现小目标少大目标多的特点,为此,提出了面向交通场景的小目标数据增广方案,该方案核心思想在于:以不遮挡其它目标为前提,增加原始训练图像中的小目标数量。通过应用上述方案至NDNet,本文实时语义分割在Cityscapes测试集上取得了65.7%mIoU的分割精度,且在1024×2048高分辨率图像上浮点运算量仅需8.4G,优于多数实时模型。
基于深度学习的语义分割涉及低分辨率特征至高分辨率语义预测的上采样过程,因此,尽管降低输入分辨率可有效提升语义分割效率,但同时将增加后续上采样的倍率,从而给空间细节的恢复带来极大挑战。为此,本文通过将传统双线性插值转换为多次分通道卷积,实现了参数可学习的上采样,从而减少了输入分辨率降低对精度的负面影响,进一步提升语义分割效率。通过应用本文学习上采样,高精度模型DeepLabV2分割精度可提升约1.2个百分点,且效率基本保持不变。
尽管现有实时模型大大提升了语义分割效率,但其精度仍与高精度模型相距甚远。另一方面,当语义分割精度较低时,引入条件随机场(Conditional Random Fields: CRF)对语义分割进行优化成为一种常用手段。然而,由于CRF复杂的图优化过程,导致其效率十分低下,因此难以应用于实时语义分割模型。针对此,本文在深入分析CRF的原理的基础上,将CRF的核心思想简化为“像素标签不仅与其自身特征相关还与其邻居特征相关”,以此为基础,提出了局部共享特征以替代CRF模型。实验表明,局部共享特征通过邻居将特征共享实现了局部依赖的建模,可有效改善语义分割标签的平滑性与连续性。
综上所述,针对现有高精度语义分割难以满足自主无人驾驶的快速场景理解需求,本文从模型上设计了实时特征提取网络以及实时语义分割框架,有效提升了语义分割效率,在此基础上,进一步提出了学习上采样、局部共享特征以及基于合成数据的数据增广等精度改善方案,在仅引入少量计算耗费的基础上提升了语义分割精度。
深入分析了深度网络计算耗费来源,发现深度网络计算耗费大部分来源于其宽度(即特征通道),因此提出了实时网络宜窄且深的设计理念;此外,鉴于传统卷积运算耗费基数过大,引入分通道独立卷积设计了新型基础卷积模块,并结合上述宜窄且深的实时网络设计理念,构建了适用于语义分割的实时特征提取网络NarrowwhileDeepNetwork45(NDNet45)。相比经典网络ResNet18,在保持分割性能可比的前提下,NDNet45参数量缩减约18倍,浮点运算量缩减约37倍,大大提高了语义分割效率。
提出了基于模型与数据驱动的实时语义分割方案。在模型上,利用全卷积网络FCN8架构平均特征分辨率低的优点,提出了预测自适应融合的改进FCN8框架,在仅引入少量额外计算耗费的前提下,实现了模型性能的提升;在数据上,针对小目标对交通场景理解的重要性而现有实时模型小目标分割精度偏低的问题,深入分析了交通场景图像的特点,发现交通场景样本分布不均衡,且呈现小目标少大目标多的特点,为此,提出了面向交通场景的小目标数据增广方案,该方案核心思想在于:以不遮挡其它目标为前提,增加原始训练图像中的小目标数量。通过应用上述方案至NDNet,本文实时语义分割在Cityscapes测试集上取得了65.7%mIoU的分割精度,且在1024×2048高分辨率图像上浮点运算量仅需8.4G,优于多数实时模型。
基于深度学习的语义分割涉及低分辨率特征至高分辨率语义预测的上采样过程,因此,尽管降低输入分辨率可有效提升语义分割效率,但同时将增加后续上采样的倍率,从而给空间细节的恢复带来极大挑战。为此,本文通过将传统双线性插值转换为多次分通道卷积,实现了参数可学习的上采样,从而减少了输入分辨率降低对精度的负面影响,进一步提升语义分割效率。通过应用本文学习上采样,高精度模型DeepLabV2分割精度可提升约1.2个百分点,且效率基本保持不变。
尽管现有实时模型大大提升了语义分割效率,但其精度仍与高精度模型相距甚远。另一方面,当语义分割精度较低时,引入条件随机场(Conditional Random Fields: CRF)对语义分割进行优化成为一种常用手段。然而,由于CRF复杂的图优化过程,导致其效率十分低下,因此难以应用于实时语义分割模型。针对此,本文在深入分析CRF的原理的基础上,将CRF的核心思想简化为“像素标签不仅与其自身特征相关还与其邻居特征相关”,以此为基础,提出了局部共享特征以替代CRF模型。实验表明,局部共享特征通过邻居将特征共享实现了局部依赖的建模,可有效改善语义分割标签的平滑性与连续性。
综上所述,针对现有高精度语义分割难以满足自主无人驾驶的快速场景理解需求,本文从模型上设计了实时特征提取网络以及实时语义分割框架,有效提升了语义分割效率,在此基础上,进一步提出了学习上采样、局部共享特征以及基于合成数据的数据增广等精度改善方案,在仅引入少量计算耗费的基础上提升了语义分割精度。