基于深度推理的视觉问答研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:niujicun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉问答是一项具有挑战性的任务,其涉及对多模态信息输入(即图像内容和自然语言问题)的共同语义理解,以及基于视觉和语言的联合推理。现有的视觉问答模型通常结合了卷积神经网络和循环神经网络将图像和问题映射到公共特征空间。许多视觉场景都包含带有关键信息的文本,所以机器必须理解图像中的文本。与一般的视觉问答任务不同的是,图像中带文本的视觉问答(Text-based Visual Question Answering,T-VQA)需要“阅读”图像中的文本,并结合文本和其他视觉内容进行推理。针对T-VQA,本文首先提出一个两阶段的推理模型。在第一阶段,我们只使用图像中已识别的文本来回答问题。如果第一阶段的预测不够自信,则进入第二个推理阶段,该阶段同时利用图像中的视觉特征和文本特征。为了建立图像中视觉和文本之间的关系,我们设计了跨模态关系图,并进一步对问题的表示和注意力机制之间的关系进行了探索。实验表明,该模型能有效抽取图像中视觉和文本的高层语义特征并融合,从而提升了在Text VQA和ST-VQA数据集上的性能表现。现有视觉问答方法把答案预测看作是单步的分类问题,即从固定的答案集中选择答案,从而无法生成复杂答案。针对这一问题,本文提出将答案预测看作是文本生成任务,基于Transformer模型迭代地预测包含多个单词的答案。此外,视觉问答模型的性能在一定程度上依赖文本识别的准确度。针对这一问题,本文引入一个辅助任务,以策略梯度优化的方法来训练模型,以减轻模型对文本识别的依赖,从而增强模型的推理能力。通过实验表明,本文提出的基于Transformer的生成式视觉问答模型,在多个T-VQA数据集上的性能明显优于目前最先进的方法。
其他文献
工业控制系统(ICS)是应用于工业基础设施的系统,多使用于监督控制、数据采集和工业自动化等。工业控制系统中包含了多种不同的硬件、软件,整体具有复杂的、基于组件的体系结
近年,基于远程直接内存访问(Remote Direct Memory Access,RDMA)的分布式系统广泛应用。其使用锁实现访问共享资源时的并发控制。锁一般采用先来先服务调度,该方式虽然能保证请求整体的公平性,但是高延迟的写操作使得后续读操作显著增加等待时间,并且限制了读操作的并发性。注意到在放松一致性要求的应用场景中,如分布式机器学习框架参数服务器,并不要求对参数的更新和读取严格按序,即使部
遥感数据质量评价在遥感技术的应用及发展中发挥着重要的作用,是遥感仪器研制与遥感数据应用的枢纽,不仅可以对之前工作的结果做出合理的分析,同时能为后续卫星的发射提供科
自1928年Fritz Pfleumer发明第一个磁带录音机后,越来越多的科研人员投入到磁记录技术研究中,使得磁记录技术飞速发展,为现在互联网技术的高速、稳定发展打下了坚实基础。在当前的数据时代,迫切需要发展新的磁记录技术满足存储需求,其中,全光磁记录技术引起了巨大关注。L1_0-FePt纳米颗粒具有高各向异性,适合作为全光翻转磁存储介质,但是,它的全光磁化翻转机制尚且不清楚,对此进行深入研究具有
在环境容量和能源短缺的双重约束下,新能源汽车特别是电动汽车在中国得到迅速发展。中国汽车工业协会发布的《节能与新能源汽车技术路线图》显示,到2030年,中国电动汽车年销售量预计将超过1520万辆。新能源汽车动力电池退役后可用于梯次利用或进行资源化利用回收镍、钴、锰、锂等再生金属及塑料等二次资源。在我国新能源汽车保有量持续增长的背景下,在用动力电池正在形成巨大的资源存量库。在此背景下,对我国新能源汽车
学位
语音识别技术在智能终端、车载系统、智能家居等场景应用越来越广泛,命令词识别作为关键词识别的一个分支应用,能直接识别预设的命令词。基于深度学习的命令词识别方法已经取
随着经济的发展,近年来,雾天气的出现较为频繁,给人们的生活也带来了极大的危害。传统的基于遥感技术的识别和预报雾的设备往往存在光谱分辨率低、价格昂贵、多次清绘累积误
尽管过去20年里有大量研究关注二语写作的同伴反馈,但研究者对于同伴反馈质量会对学生作文修改产生怎样影响这一问题的回答没有达成一致。鉴于此,本研究通过分析49位中国英语学习者在同伴反馈活动中给出的反馈内容,并对6位学生开展深度访谈,旨在探究同伴反馈质量与作文修改二者之间的关系,并进一步探索影响学生基于同伴反馈的作文修改的因素。本研究采用汇聚平行设计的混合方法研究范式(a mixed-methods
随着高速计算机技术和高速自动化设备的发展,尤其是机器人的广泛应用,出现了一类新兴的离散事件系统——高通量筛选系统。该系统将化学、基因组研究、生物信息、自动化仪器以
目的探讨内蒙古地区急性胰腺炎的病因构成,比较各自在性别、年龄、严重程度方面的临床特点。方法回顾分析2015年1月至2018年12月内蒙古地区6家大型医院收治的4168例急性胰腺炎患者的临床资料,按照致病因素将患者分为高脂血症性胰腺炎组、胆源性胰腺炎组、过度进食性胰腺炎组、酒精性胰腺炎组、特发性胰腺炎组和其他病因所致胰腺炎组。计算不同病因的构成比,并利用统计学方法对不同病因组患者年龄、性别及严重程度