基于语义上下文的指称目标检测研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户：huanghong198122

【摘要】

：

指称目标检测(Referring Expression Comprehension)是近年来研究人员广泛关注的一个热点研究方向,它涉及计算机视觉和自然语言处理两大领域,具有十分广泛的应用前景。论文基

【作者】

：

高友明

【出处】

：

苏州大学

【发表日期】

：

2020年01期

【关键词】

：

指称目标检测语义上下文提取注意力机制多模态卷积神经网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

指称目标检测(Referring Expression Comprehension)是近年来研究人员广泛关注的一个热点研究方向,它涉及计算机视觉和自然语言处理两大领域,具有十分广泛的应用前景。论文基于联合嵌入空间框架,通过研究提取图像中的视觉特征和指称中的文本特征,将两种特征映射到共同嵌入空间中,最后经匹配函数计算相似度得分完成指称目标检测。鉴于语义上下文是大脑定位和描述场景目标的重要表达方式,论文分别从文本语义上下文和视觉语义上下文两个方面对指称目标检测展开研究,主要研究工作如下:(1)针对现有方法无法解释文本特征提取中词序或语法结构差异,导致无法完全理解指称语义信息的问题,论文提出基于语法的文本语义上下文指称目标检测方法。该方法采用Standford Parser生成指称的语法解析树,通过计算图生成算法构建动态的计算模型,并采用树形长短时间记忆(Tree-structured Long Short-Term Memory,Tree-LSTM)网络提取文本语义上下文以增强计算图中节点的文本特征。最后动态模型逐层完成节点内增强的文本特征和由卷积神经网络(Convolutional Neural Network,CNN)提取的图像视觉特征的相似度匹配计算。在RefCOCOg数据集上的实验证明,该方法有效的利用了语法结构中蕴含的文本语义上下文,增强了指称的文本特征表达能力,实现了对图像中的目标和相关目标较高准确率的检测。(2)针对现有方法不能有效利用指称与图像中的信息映射,导致不同模块内指称的文本特征表达能力不足的问题,论文提出基于多模关系的文本语义上下文指称目标检测方法。该方法提取主语、位置和关系三类视觉特征和文本特征,通过计算视觉低层特征和短语高层特征的多模关系提取文本语义上下文以定向增强对应类型的文本特征,最后将三类视觉特征和文本特征分别匹配打分得到最终总相似度。实验表明,多模关系文本语义上下文有效提取了多模特征间的交互信息,增强了文本特征,很好的引导了跨模态之间的信息对齐,提升了指称目标检测的准确率。(3)针对现有方法不能有效提取目标的视觉语义,导致对相似目标的检测能力弱的问题,论文提出基于视觉语义上下文的指称目标检测方法。该方法主要针对视觉和文本进行特征增强,一方面使用协同注意力机制(co-attention)提取视觉语义上下文来增强主语模块对属性信息的关注,另一方面则通过目标与相关目标之间的潜在联系增强关系模块视觉特征表达。实验结果表明,该方法有效的增强了指称文本特征中的属性信息以及视觉特征表达,显著提高了模型在RefCOCO、RefCOCO+和RefCOCOg三个数据集上的指称目标检测性能。总之,论文从仅提取语法文本语义上下文增强文本特征,到建立文本高层语义和视觉低层语义之间的映射,以及提取视觉语义上下文完成文本和视觉高层特征之间匹配的研究,表明多模态任务中语义上下文的抽取可以有效的提升指称目标检测性能。

其他文献

通信辐射源信号多维指纹特征提取与融合算法研究

近几年,通信辐射源个体识别技术研究备受关注,在战场形势分析与通信对抗领域具有重大意义。指纹特征以个体辐射源信号为载体,具有可测性、独立性与唯一性,而辐射源个体识别技

学位

辐射源个体识别指纹产生机理指纹提取特征优选多接收机特征级信息融合

掺钕双频激光器的功率均衡及脉冲时间同步特性研究

毫米波/太赫兹波在很多方面逐渐展现出了巨大的发展潜力。由于双频/双波长激光器的输出信号相位高度相关,频差也更为稳定,因此可以得到高纯度且稳定的毫米波/太赫兹波段拍频

学位

双频激光器掺钕组合晶体功率均衡频差调谐脉冲时间同步热效应

多特征相关滤波跟踪技术研究

目标跟踪是计算机视觉研究领域的一个热点问题,目标跟踪技术在军事侦察、精确制导、火力打击、自动驾驶等方面有广泛的应用。近年来许多性能出众的目标跟踪算法被提出。与此

学位

目标跟踪多特征嵌入式系统

智慧教室环境下OMO同步教学模式设计与应用研究

2019年新冠疫情的突然爆发,促使教育领域在全国范围内进行了在线学习的实践,不可避免,尚未成熟的在线学习在实践中逐步显露出一些问题。教育工作者重新审视传统面对面课堂和在线学习分别在教育系统中发挥的作用,开始寻求一种结合两者优势,以最优化教学的方式。因此,线上线下融合教学这一概念在后疫情时期被广泛关注。与此同时,疫情后的教师培训也开始寻求一种更加灵活的培训方式,在职教师常常在受限于某些客观因素例如工

学位

PRECEDE理论下体育与健康课程中健康教育模块实施影响因素分析

随着时代快速发展,青少年作为国家的未来,其健康问题已然成为全社会关注的重点问题。为帮助我国青少年健康成长,国家制定了一系列相应政策,例如2016年出台的《“健康中国”20

学位

PRECEDE理论体育与健康课程健康教育模块影响因素分析开封市区高中

基于改进分类和回归的目标检测研究

目标检测是计算机视觉中最重要而又有挑战性的分支之一,广泛应用于安防监控、无人驾驶、视觉机器人等人们生活当中。近年来随着深度学习网络对检测任务的快速发展,目标检测器

学位

选择性分类选择性回归特征对齐残差分类网络遮挡增强

蒙药依赫汤调节免疫功能的实验研究

目的:通过观察依赫汤对免疫抑制小鼠免疫指标的影响来探索依赫汤对机体免疫功能的作用。方法:1.KM种小白鼠240只,雌雄各半,8周龄,体重:18—22g,以普通饲料喂养一周后随机分为4大组,每组60只。每大组又分为6小组,分别为空白对照组,阳性对照组,模型组,依赫汤低,中,高剂量组。高剂量组,给予依赫汤0.78g/(kg.d),第四周末开始腹腔注射环磷酰胺80mg/(kg.d)连续5天;中剂量组,给

学位

蒙药依赫汤免疫功能

星载SAR图像水华识别方法研究

近年来,由于频繁的人类活动以及工业的迅速发展,我国湖泊的富营养化现象日益严重,导致水华现象频繁爆发,严重影响了周边地区人民的日常生活。水华现象是指水体中藻类大量繁殖

学位

星载SAR图像水华识别特征选择自动特征提取

基于STEM教育的高中地理教学应用研究

STEM教育起源于美国,是科学、技术、工程、数学四门学科的缩写,其理念是提倡基于项目或问题情境的学习方式。随后,STEM教育受到了全世界包括中国在内的学者的关注。从国家层

学位

STEM教育高中地理教学应用

基于TLS和UAV影像点云的森林样地参数自动估算

森林资源调查是目前清晰了解国家森林生长变化情况的重要手段。调查的森林关键参数包括树高、胸径、冠幅和森林郁闭度、蓄积量等。由于传统接触式野外实地测量和基于有限分辨

学位

地面激光雷达无人机点云树木参数拟合圆柱分割算法数据融合

基于语义上下文的指称目标检测研究

其他学术论文