论文部分内容阅读
难点在于如何针对不同图片组中的不同情形,得到自适应的协同显著性检测意指在一组相关图片中发现共同且显著的目标或区域,其具有前景一致性和前景-背景区别力的特征表达,以及如何建模同组图片间的交互关系,利用群组语境信息促进协同显著性检测性能的提升。虽然已有的协同显著性检测研究针对以上两大问题进行了广泛而深人的探索,但是距离令人满意的协同显著性检测仍然存在许多亟需解决的障碍,特别是利用深度学习工具解决协同显著性检测问题仍然处于初始的摸索阶段。本文提出三种基于深度学习的协同显著性检测方法,为协同显著性检测研究提供了新的思路,主要内容和贡献概括如下:一、提出一个基于图注意力网络的半监督协同显著性检测算法。利用多视角特征选择对超像素的多视角特征进行学习和融合,通过探索多视角特征间的互补,得到任务自适应的综合特征表达。在优化后的综合特征上构建初始图拓扑结构,利用图注意力网络建模组内超像素间的交互关系,得到具有组语境信息的特征表达进行精确的协同显著性推理;最后利用精心设计的代价函数作为监督对多视角特征选择网络和图注意力网络依次进行优化。所提出的图注意力网络将图优化、特征学习以及协同显著性检测推理整合在一个统一的框架中,充分地考虑了组内超像素间的交互、组语境信息对特征学习的影响,得到令人印象深刻的协同显著性检测结果。二、提出了一个群组语义指导的协同显著性检测框架。设计分级低秩双线性池化策略将组内所有图片的特征整合为一个综合的群组表达,利用共同类别监督进行学习,使群组表达具有丰富的语义信息;然后以群组语义特征为指导,探索多层次卷积特征间的互补,得到精确的协同显著性图。所提出的模型首次探索了图片间在语义层次上的交互,并利用群组语义信息指导图片的协同显著性检测。整个网络结构以端到端的方式进行联合训练和优化,提升了模型的鲁棒性和协同显著性推理能力。三、在第二个工作的基础上对深度学习网络结构进行改进和增强。我们提出一个金字塔注意力模块在多个空间尺度上强调重要的图片区域,抑制背景干扰;为了缓解群组语义与多尺度视觉特征直接串联带来的语义鸿沟,我们提出一个语义-视觉特征金字塔结构,以渐进的方式将群组语义和多尺度视觉特征融合;将之前的单尺度协同显著性监督改为多尺度监督,促进了多层次特征的学习和优化。基于以上三方面的改进措施,我们提出的协同显著性深度学习模型在性能上得到进一步提升。