基于图神经网络的运动场景视觉问答研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:woshiwl0000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机视觉和自然语言处理领域相关技术的快速发展,极大地推动了下游交叉任务的研究,比如视觉问答任务。视觉问答,是指根据给定的图像以及相对应的自然语言问题去预测答案。相比于静态图片,以运动图片为代表的动态图片具有诸如动作、状态、趋势等深层次语义信息,因而具有极大的研究价值。当前的研究工作主要探索图片信息,而忽略了问题中词与词之间的关系对正确预测答案的重要性。因而,本论文提出应该同时捕捉图片中对象与对象之间的关系以及问题中词与词之间的关系。首先,构建以运动场景为代表的动态图片,用于探索动态图片的深层次语义信息。本文应用注意力机制构建了双通道自注意力视觉问答模型。该基准模型用于验证问题中词与词之间关系对预测答案的重要性。然后,利用图神经网络捕捉图片中对象间的关系和问题中词与词的关系,本文分别设计了双通道图注意力(DC-GAT)、双通道图卷积(DC-GCN)以及双通道注意力加权的图卷积网络(DC-WGCN)视觉问答模型。本文开展了大量的效果对比实验、消融实验以及可视化分析。结果表明,同时捕捉对象间关系以及词与词之间的关系有助于提升视觉问答模型性能,从而验证了本文所提出方法的有效性。
其他文献
钛作为一种新型的结构材料,逐渐成为工业和民用领域的“全能金属”和“战略金属”。由于其具有密度小、比强度高、耐高低温、耐腐蚀、无毒无磁等特性,钛和钛合金被广泛运用于
词汇附带习得是高中生扩大词汇量、进行其他复杂学习活动(如有意义的交流)的基础,有研究者基于对“学生如何能够有效率地习得词汇”这一问题的探究提出了投入量假说。多年的实证研究表明,投入量假说对于设计词汇学习任务及促进词汇习得的有效性非常有价值。但大多数研究集中于以英语为二语的大学生词汇习得的情况,很少关注到在中国教学环境中更年轻的英语学习者,如高中生。此外,即使是探索中学生英语词汇附带习得的实证研究,
水溶液中Ferrous-Ferric体系的电子转移反应是最简单的自交换反应之一,经常被作为均相电子转移反应研究的理论模型。目前,大部分学者认为Ferrous-Ferric 体系的电子转移按照
自1970年平面四配位碳(Pt C)的概念被提出以来,含有Pt C的实例不断通过理论预测和实验制备被发现。这些非经典小分子的结构可以通过电子作用或机械作用很好地稳定。由此基于平
糖蛋白作为蛋白质翻译后修饰的最重要产物之一,参与了许多复杂的生物过程。研究表明,糖蛋白异常的表达水平与许多疾病的发生密切相关,因此糖蛋白的特定分析对某些疾病的早期
世界范围内的电力市场开放自由化进程正在逐步加速,我国通过试点建立了区域电力市场的基本框架、探索引入了多种市场运营及竞价模式。与此同时,小型化、分布化的新型分布式能
达乌里胡枝子(Lespedeza davurica S)作为牧草和草地改良的优良草种,生态建设和牧草生产对其种子的需求量越来越大,但达乌里胡枝子种子产量低,种子质量差。因此,本试验以“晋农1号”达乌里胡枝子为材料,于2016-2018年采用裂区试验设计,施肥为主区,种植密度为副区,研究施配不同比例的氮肥(0、75、125、175 kg/hm2)、磷肥(50和100 kg/hm2)、钾肥(75和15
随着我国冶金产业的快速发展,高炉整体结构也逐渐大型现代化,然而我国目前高炉钢结构设计依然停留在以经验为主,计算为辅的阶段,相关技术规范以及标准也并不系统健全。因此,
复合材料结构具有比强度高、比刚度大及可设计性强等优点,广泛应用于航空航天和车辆等工程结构。复合材料结构在冲击载荷下通过各种复杂的破坏模式可吸收大量能量。复合材料结构吸能特性易受各种因素的影响,其中触发机制是影响复合材料结构吸能特性的关键要素。合理的触发机制能使复合材料结构以可控的方式稳定渐进破坏,充分耗散能量。随着工程应用领域对吸能结构性能要求的提高,单一的触发机制已经不能满足工程需要。因此,本文
压缩感知(compressed sensing,CS)是在信号处理领域上的新式的信号的采样理论。CS在采样频率方面较于传统的采样理论-奈奎斯特采样定理具有优势,可以远低于传统的采样率进行采样,且将采样和信号的压缩同步完成,因此会极大地减少在压缩采样的过程中的冗余数据。压缩感知理论表示在具有可压缩性的原始信号的基础上,通过测量且保证不相干,得到测量值,然后通过非线性的重构算法重构出原始信号。这种提高