问题引导的注意力推理机制在视觉问答中的应用

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:houhx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新的计算技术的发展以及大型数据集的增多正在改变众多领域的研究及发展方向。机器学习尤其是深度学习技术得益于此,取得了惊人的进步。近年来,深度学习技术被广泛的应用在自然语言处理以及计算机视觉等领域。在某些单模态任务上,深度学习模型的性能甚至超过了人类。像视觉问答等跨模态的任务逐渐得到了众多研究者的关注。给定一张图片和一个与图像相关的问题,视觉问答模型需要理解并融合这两个模态的信息,并确定答案。在视觉问答任务中多模态注意力机制是现阶段常用的解决方案。模型常常使用堆叠注意力模型的方式提升模型的推理能力,但这种方法忽略了问题在推理过程中的引导作用。因此在本文中我们借鉴了循环神经网络的特点,提出问题引导的视觉推理单元,推理单元用记忆保存我们需要的图像信息。具体地,在每一次迭代时,我们首先通过一个指令生成模块生成问题指令;然后使用视觉注意力网络获取图像在该指令引下的显著特征;最后这一特征将通过门限机制更新推理单元的记忆。在经过多次循环后,我们使用最终的记忆生成答案。视觉注意力尽管可以关注图像中的显著区域,但并不能捕捉到图像中的视觉关系,而视觉关系对于回答复杂的尤其是涉及到物体关系的问题是不可或缺的。在本文中,我们将图像中的物体看作图的节点,并假设任意两个节点之间都有联系,然后我们利用图注意力网络对节点进行更新,以此来捕捉图像中物体之间的联系。与传统的图注意力网络不同,在本文中我们强调了问题在图节点更新中的引导作用。一方面我们通过问题指令引导相邻节点与中心节点的注意力分布,另一方面使用通道注意力对邻居节点的信息进行过滤。经过多次对图节点进行更新,问题引导的图注意力网络能够在图像中捕捉到丰富的上下文信息。实验结果显示,我们的网络在VQA2.0和GQA平衡数据集中,都取得了先进的效实验果。
其他文献
据国家发展和改革委员会价格监测中心对全国36个大中城市监测.10月份国内汽车市场受外部环境因素影响,产销增速放缓.价格小幅下降。10月份,国产汽车价格环比下降0.73%,比去年同期价
前言近几年,中国汽车工业的发展突飞猛进,2003年汽车产销量均创下历史记录,双双突破444.37万辆大关,同比增长35.2%,是国内GDP增长速度的4倍.在轿车高速增长的同时,载货车增长
X公司是一家典型的风力发电机零件供货商,在风力发电机终端使用客户不断提升的高性能、低成本之市场压力下,该公司的生产运作方式饱受压力,已经不能满足市场供给和客户需求。在风电产业采购链标准化的趋势下,有失去客户信任进而丧失市场份额的风险。首先,不断增加的客户方“新要求”使得X企业的生产运营和质量管理面临新的越来越复杂的挑战。其次,风能产业标准化趋势下,风机配套零件从概念设计到投产的时间周期变的越来越短
明晰因果关系范围、介入因素的内容是开展介入因果关系判断的前提.因果关系与介入因果关系之间是普通与特殊的关系,判断因果关系时所采用的方法亦是判断介入因果关系的方法.
本文从"言"、"意"两个命题出发,着力将"言外之意"渗透入具体的艺术作品中.阐述其在不同部类中的内涵相通之处,彰显出诗文之含蓄,画作之悠远,书法之隐忍,音乐之精深,园林之妙
2012年11月,广东省质监局公布了对电冰箱(含冰柜)、空调、热水器等13种产品的转型抽检结果。在家电类产品中,共有3款冷柜,2款空调和11款热水器抽检不合格。根据广东省质监局的抽检
人民主权作为政治哲学的主题思想之一,正如伯林所言,政治哲学是一种理性的传统,它的目的就是要对人们的政治生活予以审视。此中,对人民主权的研究已然成为政治思想史上长久不
初中与小学的英语衔接教学一直以来都受到英语教学界的重视。相对而言,对英语阅读衔接教学、英语写作衔接教学和英语听力衔接教学上的研究较多,但对英语语音衔接教学的研究甚
春季的天气乍暖还寒,呼吸道疾病、消化道疾病和皮肤过敏等患者有所增加。因此,办公族有必要做好春季保健预防工作,让自己在新的一年有一个健康的开始。胃病胃病一般是指慢性
在当今竞技体育界,“竞技就是动作”逐步被大家接受。高水平运动员通过高效的人体动作。在世界大赛中展现其美轮美奂的竞技风采,执行高质量的动作模式和功能动作。其中,人体动作