基于注意力机制的视觉问答模型研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:crying___leaf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机视觉和自然语言两个领域近十年来得到长足发展,这两个领域的发展推动了多模态任务的研究。具有代表性的任务之一是2015年学术界提出的具有开放式特性的视觉问答(Visual Question Answering,VQA)任务,该任务将图像和开放式的问题作为输入,并输出自然语言形式的答案[1]。视觉问答模型需要同时对图像的视觉内容和问题的文本内容进行细粒度理解,然而目前大部分VQA模型都只使用视觉注意力而忽略了文字注意力。而且学习视觉注意力时是先学习单个模态之内的注意力,然后在这基础上学习另一个模态对该模态的注意力,本文认为这种方法会损失那些在模态内不重要而对另一个模态却很关键的信息。另外大部分只使用浅层的注意力网络,然而浅层模型无法捕获图片与文字之间的高级联系。基于以上问题,本文提出了一种改进的基于最大值的注意力网络,简称为MSGA,该网络使用两个基本注意力单元,自注意力单元和引导注意力单元分别学习模态之内的信息流动和另一个模态流向该模态的模态间信息,之后利用最大值的思想在模态内和模态间注意力特征上取较大值。并在该网络基础上,提出了三种在深度上级联的网络,其中有两种使用堆叠式方式,另外一种使用编码器-解码器方式。两种堆叠式方式不同之处在于是否使用MSGA来提取问题注意力特征。这三种模型都能够同时学习到模态内和模态间信息流,从而提高视觉问答的性能。在VQA-v2数据集上评估本文的模型,实验结果表明,本文最差的单模型结果也比2019年的DFAF模型[2]高0.32,最好的单模型结果更是比2019年VQA挑战赛冠军中的单模型[3]高0.23,达到71.13。
其他文献
本文主要对蒙古族民歌形成的历史背景和文化渊源进行剖析;对蒙古族长短调民歌的艺术特色进行比较分析,以《牧歌》和《嘎达梅林》为例,对其音乐艺术特点与演唱技法进行分析。
研究目的:2018年12月,国务院办公厅下发《关于加快发展体育竞赛表演产业的指导意见》表示,体育竞赛表演产业已成为推动体育产业向纵深发展和建设健康中国的重要引擎。2019年,习总书记召开中央经济会议时强调:"我国经济稳中向好、长期向好的基本趋势没有改变。要推动生活性服务业向高品质和多样化升级,加快发展数字经济"。系列决策部署指明了数字经济已成为我国经济高质量发展的驱动力,对于推进体育竞赛表演业高质
随着我国海洋经济的高速发展,海洋油气资源开采区域逐渐扩大化,具有高附加值的海洋平台用特厚板市场前景广阔。但现存海洋平台用钢普遍存在合金成本高、工艺复杂和性能不稳定等问题。本文结合国家863计划重大课题“海洋平台用高锰高强韧中厚板及钛钢复合板研究与生产技术开发”课题,以Ti微合金化低碳中锰钢为实验对象,研究Ti元素对中锰钢基体组织和综合力学性能的影响,揭示微合金中锰钢特厚板的强韧化机制,最终获得高强
水质恶化导致水质性饮用水的缺乏,基于催化过程的化学方法是解决水环境污染问题的重要方法,这类方法的重要基石是催化剂。与此同时,化石能源的快速消耗导致全球性能源短缺,迫使人们开发新能源。燃料电池是一类重要的新能源,其基石离不开高效的电催化剂。因此,无论从环境化学的角度还是从能源化学的角度,催化剂是解决可持续发展所需的一类重要物质。碳基材料具有价廉易得的特点,不仅自身具有一定的催化能力,还可以充当优异催
本文应战车轻量化的需要,开发500MPa级模锻部件。采用7085高强铝合金半固态触变模锻,研究半固态制浆方式、二次加热温度和时间、模锻温度、坯料高径比、模具温度及锻后热处理方法对锻件组织和性能的影响,为该产品的工业化生产提供理论和工艺基础。获得的主要结果如下:(1)常规DC铸造的坯料晶粒为枝晶、尺寸较大,加电磁后,晶粒尺寸得到一定程度的细化,晶粒转变为蔷薇状或近球状;液相线铸造坯料的晶粒尺寸比常规
金属层状复合材料是指由同种或异种金属以一定单元层厚度复合而成的复合材料。通过综合各组元金属在物理、化学和力学等方面的优势,金属层状复合材料具有高强度、低成本、应用广等特点。本文采用累积叠轧工艺制备了两种Ti/Zr多层复合板:初始金属Ti和Zr的单层厚度分别为50 μm和初始金属Ti和Zr的单层厚度分别为1 mm,以这两种复合板为研究对象,采用X射线衍射仪(XRD)测定随着叠轧道次增加组元金属的织构
数控设备互联协议作为用于实现不同数控设备间互联互通的协议,是实现工业智能化制造的关键。目前,国外主流的数控设备互联协议有美国的MT-Connect以及欧洲的OPC UA,而国内则有正处于应用测试阶段的NC-Link。为了使得NC-Link能够应用于复杂的工厂环境,本文使用代理技术和集群技术对NC-Link协议服务代理与集群方案进行了设计,为NC-Link系统提供了必要的安全通信保障以及可用性。首先
创新作为2015年党的十八届五中全会提出的“五大发展理念”中的首位理念,在中国城市发展的进程中扮演着核心增长极的地位。创新的发展一直与城市发展相辅相成,城市为创新提供空间载体、创新为城市提供增长动力,且创新具有明显的都市化倾向与集群化特征。因此,若要实现创新要素在城市中的锚定,必须通过土地供给政策,以实现创新集群与土地政策的适配,进而满足创新在城市中的发展。文章基于上述背景,针对创新集群的土地供给
三维建筑物模型是虚拟地理环境中的重要可视化要素,被广泛应用于三维导航,数字城市,灾害防治等领域。随着三维建筑物模型数据生产技术的发展,三维建筑物模型变得越来越真实,细节不断丰富,数据量也急剧增加。海量的三维建筑物模型数据不仅给网络传输带来了沉重负担,也对客户端渲染提出了重大挑战。为此,学者们提出了渐进式传输方法,该方法将模型渐进式编码为基础模型网格和网格增量,在传输时先传输基础模型,再按固定顺序或
学位