基于注意力机制的视觉问答方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:spyxin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉问答横跨计算机视觉与自然语言处理两种学科,主要研究如何根据给定的图像以及一个与图像相关的问题,生成一个符合自然语言规则的答案。视觉问答方法必须理解图像,文本等多种模态信息,并对这些信息进行有效融合。传统的视觉问答方法,大多聚焦于单一模态的处理而忽略了多模态之间的交互,导致答案预测准确率不高。为了加强视觉问答中多种模态信息的交互,提升答案预测准确率,本文提出了一种适用于视觉问答方法的注意力模型,称之为编码器-解码器注意力模型(Encoder-Decoder Attention,EDA)。EDA模型由若干基础的自适应自注意力单元和自适应引导注意力单元连接组成,能加强多种模态之间的交互,使用文本特征去引导生成图像特征,提升视觉问答方法答案预测准确率。为了改善EDA模型训练时间过长,计算速度慢的问题,本文在EDA模型的基础上,通过改变底层注意力单元的连接方式,牺牲些许答案预测准确率,本文提出了另一种注意力模型,称之为堆叠注意力模型(Stacking Attention,SA)。SA模型与EDA模型相比,除了注意力单元的连接方式不同之外,其余结构都相同。此外,本文还提出了一种基于自适应注意力机制的视觉问答方法,称之为多模态自适应注意力网络(Multimodal Adaptive Attention Networks,MAAN)。MAAN使用目标检测网络Faster R-CNN提取图像特征,使用GRU提取文本特征,通过使用注意力模型(SA模型或EDA模型)处理这两种特征后,将之有效融合并输送到分类器预测答案。MAAN能有效处理输入的图像与问题之间的信息交互,并生成符合自然语言规则的准确答案。本文在大型公开数据集VQA v2.0以及Visual7W上进行了大量实验。实验表明,本文所提出的SA模型与EDA模型,均能有效提升视觉问答方法的答案预测准确率,EDA模型的准确率高于SA模型,SA模型的速度快于EDA模型。此外,在与其他视觉问答方法的对比过程中,MAAN分别使用了SA模型和EDA模型进行实验。无论是使用SA模型,还是EDA模型,MAAN都取得了较高的准确率,其中在使用EDA模型时达到了最高的准确率,在VQA v2.0上达到了71.45%,在Visual7W上达到了65.3%。
其他文献
玉米赤霉烯酮(Zearalenone,ZEN)是一种易污染粮食等农产品且极易残留的真菌毒素,它很容易通过蓄积作用进入人体,从而产生免疫毒性、细胞毒性、生殖毒性和雌激素作用,对人体健康造成极大威胁。因此,建立灵敏且高效的ZEN检测方法对于确保食品安全和保护人体健康具有重要意义。目前的检测方法中,电化学法由于分析时间短、设备成本低、制作简单和易于微型化等特点得到了广泛关注。本课题利用核酸适配体提高电化
筒仓内粮食强度变形特性的准确获取是筒仓结构安全设计的关键要素。筒仓在储粮周期内需要装卸粮,卸料时仓内粮食在侧压力及仓壁摩擦等影响因素下,会导致仓内不同位置处粮堆的压力分布不均匀,甚至引发仓体结构的破坏。粮食的强度和变形特性对于研究粮堆内的压力分布规律具有重要作用。本文选取小麦为研究对象,通过引入数字图像测量技术,有效消除了三轴试验的端部影响,直接测试了小麦试样的局部强度、变形特性,为小麦储仓及仓体
近年来,包括可穿戴设备,智能家居和医疗保健设备在内的智能物联网设备正在蓬勃发展,这极大地改变了人们的日常生活方式。人们往往需要让不同的智能设备进行信息交互,常用的方式有Wi-Fi,Bluetooth,Zigbee等。但它们均容易受到无线窃听攻击。现有的基于智能设备的振动通信将嵌入智能设备的振动电机作为信号发射器,并将加速度计作为信号接收器,让振动信号通过刚性的固体表面来进行传播,解决了上述无线通信
赤拟谷盗是全世界重要储粮害虫,繁殖能力强,为害范围广,可对储藏的小麦和小麦粉造成严重损失。本课题以赤拟谷盗为害的小麦和小麦粉为研究对象,采用顶空固相微萃取与气质联用技术对赤拟谷盗感染不同时间后的小麦及小麦粉挥发性成分进行提取和鉴定,分析赤拟谷盗感染不同时间后的储粮环境中挥发性物质的种类、成分及含量变化规律,探讨赤拟谷盗发生时储粮环境中特征性挥发物质成分,为通过检测储粮挥发物成分对储粮害虫发生进行预
近年来,随着我国航空运输业进入高速发展阶段,越来越多的机场投入规划建设。沥青跑道以其具有平整、抗滑、减震等优良性能,逐渐成为国内外机场跑道设计的主流。沥青道面属于柔性道面,对跑道变形具有一定的适应性,但与此同时,其对飞机荷载的扩散作用不如刚性道面,在飞机动载长期作用下道面和道基中会产生更大的附加动应力,诱发道面疲劳破坏和道基产生更大的累积沉降,严重威胁跑道的适航性。目前,关于飞机荷载-沥青道面-道
作为中唐时期两位著名的政治家、思想家和文学家,柳宗元和刘禹锡的人生经历十分相似,同时考中进士,同时入朝为官,同时因参加“永贞革新”运动失败被贬去南方。长期的贬谪、远迁生活,不仅仅促成了他们文学上的成功,更极大程度上促进了寓言文学的发展。本文通过多方面比较分析刘禹锡与柳宗元寓言文学,探讨二人在思想心态和文学技巧方面的异同,及对晚唐小品文、宋代苏轼寓言作品的影响。第一章对柳宗元、刘禹锡之前的中国寓言文
近年来,随着人们环保意识的逐步增强,降低CO2排放的重要性日益凸显。镁合金质轻,性能优良,潜力巨大,若能广泛应用则对节能减排有重要作用。高速轧制使变形镁合金获得良好的成形性,减少了材料热轧后产生的缺陷,提高了镁合金的使用性能。本文使用目前较为成熟的商用AZ61合金,对其进行400℃,轧速为1100 m/min、275 m/min的高速七道次轧制并在每道次间进行400℃,10 min的退火。通过对高
本文基于电信运营商的手机信令数据的海量性、连续性、真实性、完整性、及时性和无感知性等可以精准刻画客户移动轨迹的技术特点,提出了基于运营商数据的游客访问景区数据挖掘方法研究,建立游客访问景区的数据挖掘模型,进行游客访问景区关联规则的挖掘,目的在于从手机位置信令数据中挖掘出对旅游行业有价值的数据,为电信运营商探索数据变现新模式,帮助电信运营商带来可观的经济效益。关联规则是一种重要且应用广泛的数据挖掘算
滚动轴承是旋转机械的重要组成部分,在船舶、航天、发电等领域都起到至关重要的作用。滚动轴承长期运行在高温、高负载等复杂的工况下,不可避免地会发生磨损、腐蚀、断裂、胶合、疲劳失效等故障。因此对滚动轴承的运行状态进行监控,及时检测出滚动轴承的故障状态,识别故障位置,估计故障发生的严重程度,对于及时制定运维策略和保障设备的安全运行具有重要的研究价值。本文以滚动轴承为研究对象,考虑到滚动轴承特征分布随转速、
高超声速飞行器的快速发展需要先进的动力装置提供动力。动力装置燃烧室内支板结构对改善燃烧室燃烧效果具有重要作用,但高温高速主流对支板形成的巨大热载荷会造成支板失效,必须采取有效热防护措施。发汗冷却作为一种先进的冷却方式,有着较高的冷却效率。本文对支板采用发汗冷却的主动热防护系统进行了研究。通过数值仿真手段,建立支板发汗冷却流动换热模型,揭示发汗冷却的热防护机理以及冷却效果的影响因素,为后期设计合理的