论文部分内容阅读
深度神经网络作为实现人工智能的重要方法之一,近年来已获得广泛应用。其中,卷积神经网络极大的促进了计算机视觉领域的发展。随着研究的逐渐深入,计算机已经可以实现对图像从实例级到像素级的处理。目标检测和实例分割作为最基本也是难度最大的两个任务,因为受制于庞大的模型和复杂的算法一直无法在实际生产中发挥有效的作用。本课题基于无锚点框方法提出了更为高效和精确的目标检测和实例分割方法,在大幅减少模型的超参数和训练参数的同时,通过将检测框编码为矢量进行回归,提出了矢量编码损失,可以大幅提升在公开数据集上的准确度。此外,本课题提出了新的激活函数以帮助网络更快速地收敛到全局最优值,减少训练时间。本课题在图像分类、目标检测、实例分割的多个公开数据集上进行了设计完备的实验以验证所提出算法的有效性,结果表明本课题的方法可以在不增加额外训练参数的情况下,更快地得到更准确的检测框和分割掩膜。首先,研究了现有激活函数的设计思想。由于激活函数是一个非线性函数,因此它具有帮助神经网络拟合一个从输入到输出的非线性映射的能力。然而在实现非线性的同时还要考虑到激活函数的计算复杂度、梯度更新幅度、对收敛效果的影响等等。本课题综合了分段激活函数和非分段激活函数的优点,同时摒弃了二者的缺点,设计了一个连续非分段的激活函数,在大大减少计算量的同时,能够显著地提高网络的准确率和鲁棒性。其次,针对基于无锚点框的目标检测任务中的回归过程,设计了基于全局及基于中心距离的回归算法,同时考虑到包围框向真实框回归的过程中需要回归方向作为监督的这一事实,加入了方向的矢量信息。最终,设计的矢量编码损失可以同时为交并比为0的预测框、真实框和相互包含的预测框、真实框提供监督信息。通过在目标检测的数据集上进行的实验,证明了所提出算法的收敛的速率和最终效果显著地优于之前的其他算法。然后,针对基于无锚点框的目标检测网络结构的设计没有得到完全优化的问题,结合上述所提出的连续非分段激活函数和基于矢量编码的回归损失,提出了改进的目标检测网络。改进的结构包括检测头部的模块和回归分支的损失函数。在常规场景上验证了网络结构的有效性之后,还迁移到了难度更大的遥感数据场景中对网络进行效果测试。实验结果表明所提出的改进的基于无锚点框的目标检测算法可以在不同数据集上都保持鲁棒,且在几乎不增加训练和测试时间的前提下能有效提高检测的精度。最后,分析了基于无锚点框的实例分割算法结构设计上存在的问题。由于一阶段的实例分割算法无法用区域建议网络为感兴趣区域的分割提供权重重分配的信息,因此空间注意力指导模块的带来的效果不够显著。考虑到分割部分网络是用感兴趣区域为自己重新加入空间注意力,因此加入了通道自注意力机制模块进行指导分割。实验结果表明使用并行的自注意力机制比单独使用空间注意力对分割效果的提升更为显著。