论文部分内容阅读
指称目标检测(Referring Expression Comprehension)是近年来研究人员广泛关注的一个热点研究方向,它涉及计算机视觉和自然语言处理两大领域,具有十分广泛的应用前景。论文基于联合嵌入空间框架,通过研究提取图像中的视觉特征和指称中的文本特征,将两种特征映射到共同嵌入空间中,最后经匹配函数计算相似度得分完成指称目标检测。鉴于语义上下文是大脑定位和描述场景目标的重要表达方式,论文分别从文本语义上下文和视觉语义上下文两个方面对指称目标检测展开研究,主要研究工作如下:(1)针对现有方法无法解释文本特征提取中词序或语法结构差异,导致无法完全理解指称语义信息的问题,论文提出基于语法的文本语义上下文指称目标检测方法。该方法采用Standford Parser生成指称的语法解析树,通过计算图生成算法构建动态的计算模型,并采用树形长短时间记忆(Tree-structured Long Short-Term Memory,Tree-LSTM)网络提取文本语义上下文以增强计算图中节点的文本特征。最后动态模型逐层完成节点内增强的文本特征和由卷积神经网络(Convolutional Neural Network,CNN)提取的图像视觉特征的相似度匹配计算。在RefCOCOg数据集上的实验证明,该方法有效的利用了语法结构中蕴含的文本语义上下文,增强了指称的文本特征表达能力,实现了对图像中的目标和相关目标较高准确率的检测。(2)针对现有方法不能有效利用指称与图像中的信息映射,导致不同模块内指称的文本特征表达能力不足的问题,论文提出基于多模关系的文本语义上下文指称目标检测方法。该方法提取主语、位置和关系三类视觉特征和文本特征,通过计算视觉低层特征和短语高层特征的多模关系提取文本语义上下文以定向增强对应类型的文本特征,最后将三类视觉特征和文本特征分别匹配打分得到最终总相似度。实验表明,多模关系文本语义上下文有效提取了多模特征间的交互信息,增强了文本特征,很好的引导了跨模态之间的信息对齐,提升了指称目标检测的准确率。(3)针对现有方法不能有效提取目标的视觉语义,导致对相似目标的检测能力弱的问题,论文提出基于视觉语义上下文的指称目标检测方法。该方法主要针对视觉和文本进行特征增强,一方面使用协同注意力机制(co-attention)提取视觉语义上下文来增强主语模块对属性信息的关注,另一方面则通过目标与相关目标之间的潜在联系增强关系模块视觉特征表达。实验结果表明,该方法有效的增强了指称文本特征中的属性信息以及视觉特征表达,显著提高了模型在RefCOCO、RefCOCO+和RefCOCOg三个数据集上的指称目标检测性能。总之,论文从仅提取语法文本语义上下文增强文本特征,到建立文本高层语义和视觉低层语义之间的映射,以及提取视觉语义上下文完成文本和视觉高层特征之间匹配的研究,表明多模态任务中语义上下文的抽取可以有效的提升指称目标检测性能。