基于空间注意力推理机制的视觉问答算法研究

来源 :南昌航空大学 | 被引量 : 0次 | 上传用户:larrytangliang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习日益发展,人工智能领域迎来发展热潮。无论在计算机视觉,还是自然语言处理、语音处理等领域,深度学习都取得了突破性的进展。近年来,同时涉及计算机视觉和自然语言处理的多模态学习任务受到越来越多研究人员的关注,视觉问答正是一种涉及多模态任务的交叉研究领域。视觉问答任务旨在让机器根据图片内容对提出的问题自动地生成自然语言的回答,涉及多模态信息输入(即图片信息和问题信息)。视觉问答任务关键在于对计算机视觉和自然语言的共同理解,以及计算机视觉和自然语言之间的联合推理。视觉问答模型包含四个模块:图像、问题特征提取模块,特征融合模块,多模态信息处理模块和答案生成模块。当前主要研究方向集中在信息特征提取和多模态信息处理等。本文主要创新点和研究工作如下:(1)由于图像和问题中包含大量信息,本文对图像采用目前先进的目标检测技术提取特征,充分地检测出图像中内容信息,由此得到的图片目标信息不仅具有高级语义信息还具有大量的细节信息。同样本文对问题文本采用门限循环神经网络提取特征,获得的问题文本特征可以精确地对问题文本进行表述。(2)为了能够获得完善的特征信息,对图像特征和问题文本特征使用自注意力模块分别强化图像和问题的特征信息,获得图像的自注意力特征和问题文本的自注意力特征。自注意力机制可以有效地减少噪声和冗余信息,获得关于自身表述更为精确的特征表达。(3)研究注意力机制处理多模态特征的方法,针对现有注意力机制对图像和问题特征推理不充分的现状,本文提出空间推理注意力模块。对图像特征和问题文本特征进行多模态特征融合和多模态特征推理。将图像特征和问题文本特征进行融合得到关于图像和文本统一的特征表达,并对融合后的特征进行注意力推理获得具有空间推理表述的融合特征。本文融合多种特征提取技术、改进自注意力模块以及提出空间推理注意力模块对视觉问答模型进行改进,并在视觉问答数据集上进行实验测试,仿真结果表明,与同类型网络模型相比,本文提出的视觉问答模型在算法精度上获得了明显的提升。
其他文献
金融危机出现以后,部分学者认为危机爆发的主要原因是货币政策过于宽松,较长时间的低利率导致了金融机构信贷规模过度扩张、资产价格呈现泡沫化,金融机构的杠杆率变高,系统风险越积越多。分析出金融危机爆发的原因后,诸多的专家和学者们开始把货币政策是如何影响金融业稳定性这一问题,作为一个重要课题展开分析。本论文通过构建GMM动态面板模型展开实证研究,验证货币政策对商业银行风险的影响,希望对维护金融行业的稳定性
深度学习技术由于其近年来的快速发展成为计算机领域的热门研究项目。得益于计算机算力的不断攀升,图像分类技术在深度学习的加持下有非常迅速的发展。目前解决图像分类的研究思路主要涉及到监督学习和无监督学习两类框架。基于监督学习的判别模型是较为基础的训练框架,该模型的重大突破也是过去10年来深度学习技术发展迅猛的原因之一。近些年,更加复杂的度量学习成为了计算机图像领域新的热门。Siamese模型作为度量学习
超级电容器因其具有功率密度高、稳定性好、循环寿命长、能耗低和环境友好等特点为未来的电子系统带来了巨大的希望。目前,这些电子系统正面临着从刚性设备到灵活、便携和可伸缩电子设备的重大转变。印刷技术(喷墨打印、丝网印刷和3D打印)为超级电容器提供了一系列简单、低成本、省时、多功能和环保的制造优势,使超级电容器设备具有新型和理想的结构(微型、非对称、柔性等)。喷墨打印作为一种非接触、高精度、按需喷墨的新型
信息与网络传播技术的快速发展使得数据的分享日益频繁,也使得个人隐私数据的泄漏风险大大增加,因此人们对自己隐私信息的保护越来越重视。在数据挖掘领域,传统的决策树分类方法并没有对数据进行保护,它只专注于提取数据集中有价值的信息和提高分类的准确率,而差分隐私对数据保护的强度很大,所以将差分隐私应用到决策树分类方法中就会有很大的意义。本文主要对基于差分隐私的决策树分类方法进行了研究,包括噪声分配、连续数据
随着社会的不断发展,互联网已经逐渐渗透到生活的各个方面,人们对网络安全也越来越关注。近年来网络安全相关事件不断出现,对我们的生活产生了巨大影响,使人们意识到了网络安全已经成为当今社会稳定的一个重要因素,任何的网络安全问题都可能造成灾难性的后果。入侵检测是保证网络安全的一项重要手段,是一项有效的防御技术,在网络安全中具有重要的作用。随着大数据时代的到来,传统的基于规则匹配、统计学等方法实现的入侵检测
具核梭杆菌(Fusobacterium nucleatum,F.nucleatum)为革兰氏阴性厌氧杆菌,属条件性致病菌。F.nucleatum主要通过形成炎症环境、免疫抑制、免疫逃避等多种路径促进结直肠癌(CRC)的发生。近年来,科学家将其作为结直肠癌的标志物之一,目前,关于具核梭杆菌的检测常用PCR、环等温扩增等,这些方法存在灵敏度低、操作繁琐的局限性,因此,需要研究建立方便快捷、准确性高的检
Brinson模型最早由Brinson、Hood和Beebower提出,故又称BHB模型或者Brinson模型,该模型从自上而下的角度将组合相对于基准的超额收益分解为资产配置效应、标的选择效应以及交互效应三部分;Ibbotson和Kaplan根据问题的需要,把Brinson模型进行了简化,他们将总收益率分解成政策收益率及积极管理收益率,也就是把Brinson模型中择时贡献、选股贡献和择时选股交互影
工程专业潜水员在海洋油气资源开发设备的检修和维护,以及船舶海难事故的救援和打捞中起着重要的作用,研制仿潜水员机器人替代工程专业潜水员是非常有必要的。本文针对仿潜水员机器人的总体结构和水下运动性能进行研究,为仿潜水员机器人的发展奠定了基础。本文完成的具体工作如下:首先,根据潜水员水下运动的分析完成了仿潜水员机器人总体结构的研究:通过对潜水员游动机理的研究,设定了仿潜水员机器人自主游动姿态和腿部摆动规
2009年,钙钛矿材料被应用到了电池领域并取得了一定的光电转化效率后,致使众多研究者致力于钙钛矿太阳能电池的研究。钙钛矿太阳能电池经历了十多年的发展,其光电转化效率取得了质的飞跃,已经达到了25.2%。目前钙钛矿太阳电池应用最广的制备方法是旋涂法,但是旋涂法不利于钙钛矿薄膜大面积旋涂均匀,从而影响大面积电池的效率。而且钙钛矿太阳能电池光电转换效率也需要进一步继续提高。为了解决稳定性和效率存在的问题
众所周知,水是人类赖以生存的基本物质,是人类社会可持续发展的制约因素。随着我国经济的蓬勃发展,对水资源的需求也越来越大,但同时所面临的水体污染问题也越来越突出,水体酸碱度和重金属离子对水体的污染对人类和生物体的生命安全有着深远的影响。传统的检测方式因为其造价昂贵、操作复杂、体型较大等缺点无法满足对不同条件下水体的及时检测,研究简单、快捷检测水体酸碱度及重金属离子的方法已经成为了人们关注的焦点。近年