融合答案掩码的视觉问答方法研究

来源 :阜阳师范大学 | 被引量 : 0次 | 上传用户:vierilv
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度神经网络的出现为人工智能技术的研究注入了新的活力,并且已经较为成熟地应用在了图像识别、目标检测、语音识别等领域。作为人工智能新兴的热门研究方向,视觉问答(Visual Question Answering,VQA)任务也因此受益,近年来有了很多研究成果。现有的视觉问答模型由于受到语言先验的影响,预测准确率不高。模型能够学习到问题和答案之间的表面联系,而无法学习到它们之间更深层次的联系,容易出现答非所问的现象。为此,提出了一种使用答案掩码对预测结果中的无关答案进行遮盖的方法,迫使模型关注问题和答案类型之间的对应关系,提高模型的预测准确率。本文的主要工作如下:⑴生成答案掩码。为了使得答案掩码能够遮盖尽可能多的无关答案,需要先对视觉问答数据集中的答案类型进行重新划分。提取答案特征并进行聚类,为每一种类型的答案生成一个由0、1组成的答案掩码。⑵答案类型识别模型。采用卷积神经网络建立一个多分类模型,使用Glove模型提取文本特征,并通过分类器对文本进行分类。对模型进行预训练,使得模型能够准确地识别问题所对应的答案类型。⑶模型融合。将基本视觉问答模型的预测结果与根据答案类型识别模型选择的答案掩码进行融合,得到最终的预测答案。使用答案掩码减少无关答案对最终结果的影响,改善了视觉问答模型答非所问的现象。对本文提出的方法进行了的实验,结果表明融合了本文方法的CSS模型在VQA-CP v2.0数据集的预测准确率提高了2.02%,达到了60.14%,是目前效果最好的方法之一。
其他文献
本文主要研究了一类具退化强制性的椭圆与抛物方程解的存在性及正则性。首先,本文研究了一类具Hardy位势的非线性椭圆方程解的存在性与正则性。最初考虑F=0,构造其逼近问题并选取合适的检验函数得到解的先验估计,进而证明弱解的存在性和正则性。然后,通过单独估计div F这一项,再结合F=0时得到的结果来讨论≠0时的情形。其次,主要研究了一类具退化强制性的各向异性椭圆方程解的正则性。通过选取合适的检验函数
学位
向量拟均衡问题在数理经济学、工程技术、数学规划、社会经济学科等方面都有着广泛的应用。常见的向量均衡问题、多目标均衡问题和向量变分不等式问题等均为广义强向量拟均衡问题系统的一些特例。当今,随着问题解相关问题研究的深入,众多学者已经开始关注系统解的研究。本文目标是在拓扑线性空间中,研究了集值广义强向量拟均衡问题系统,并得到了其系统解的通有稳定性、本质连通区和适定性的相关定理。主要内容如下:第一章是绪论
学位
本文主要研究了带波动算子的非线性Schr(?)dinger(NLSW)方程的Du Fort-Frankel差分法及其理论分析。本文共四章,具体研究工作如下:第一章介绍了 NLSW方程的应用背景、研究现状和本文的主要工作。第二章建立了求解一维和二维NLSW方程齐次Dirichlet边值问题的两类Du Fort-Frankel差分格式,证明了这些格式在离散意义下保持总质量守恒和总能量守恒。运用能量法、
学位
兴国必先强师。校本研修是促进教师专业发展的重要途径,也是改善乡村教育水平、落实基础教育“双减”政策要求、提升乡村教师整体素质的必要选择。但是,在现阶段,乡村教师研修在资源、管理、方式等方面与城市学校相比,还存在一定差距。随着网络信息传播技术的发展与应用,为乡村教师校本研修提供了新的发展机遇,同时也提出了更高的要求。如何立足于乡村学校教师发展的实际,特别是在当前新冠肺炎疫情防控常态化的背景下,探寻一
学位
自然语言处理和计算机视觉借助深度学习技术不断取得新突破,以图像和文本为基础的跨模态交互慢慢成为研究热点,视觉问答(visual question answering,VQA)任务作为多模态研究内容之一也越来越热门。视觉问答任务是计算机模型对输入的图像提取出视觉特征,对输入的问题提取出问题特征,经过跨模态融合得到图像和问题的联合向量,最后使用预测函数输出答案的多分类任务。相比于单一的计算机视觉或自然
学位
图像分割是计算机视觉的一个非常经典的难题,对图像分析和图像理解具有重要的支撑作用。图像分割的实质是对一副图像进行目标与背景的分离,从而提取出感兴趣的区域。图像分割技术的应用领域较为宽泛,如人脸识别、无人驾驶和安防监控等。图像分割在医学图像辅助治疗中也发挥着重要作用,医学图像分割是图像分割领域最为重要的研究方向之一。近年来,人工智能的不断发展使得群体智能算法被广泛的运用到图像分割算法中,并且取得了不
学位
藏文古籍在我国各民族遗存的古籍文献中占据着重要地位,承载着藏族的文化和历史。但是由于藏文历史文献存放的时间太久,许多古籍图像文字出现模糊或者缺失,甚至有些文档无法翻阅,亟需数字化保护和整理。藏文古籍图像识别是数字化保护的重要组成部分,而藏文古籍图像行分割是字符识别的一个重要步骤。本课题主要研究藏文古籍图像行分割,针对藏文古籍图像的特点,提出了两种藏文古籍图像文本行分割的方法,主要内容有以下两个方面
学位
宇宙线探测实验中所采用的大气切伦科夫光望远镜,为了收集更多的切伦科夫光,通常需要安装大口径的反射镜。在宇宙线探测和分析过程中,望远镜反射镜反射率将直接影响切伦科夫光的测量。高海拔宇宙线观测站(LHAASO)中,共有18台切伦科夫望远镜。虽然生产厂家提供了反射镜的反射率参数,但是反射镜在长期使用中会因为老化或者磨损导致反射率会有不同程度的衰减。不同波长的光、不同的时间、同阵列下不同的望远镜的反射率也
学位
在多种复杂场景下进行车辆检测和提取到车辆重要信息一直是目标检测领域的重要研究方向之一。该问题的突破可以为智慧交通系统中的车辆统计技术提供基础,在一定程度上缓解交通拥挤问题,以及为车辆跟踪问题提供相应的技术支持,其中车辆是否能够准确检测是后续相关工作的前提,本文的主要研究工作及贡献如下。(1)为了降低选取先验框选取时间以及提升模型的检测精确度,利用k-means++聚类算法选取9个目标先验框和尺寸,
学位
近年来,基于计算机视觉和自然语言处理的多模态交互任务虽然取得了进展,却也出现了类别不平衡,模态无法对齐等一些具有挑战性的问题。视觉问答是一种经典的多模态交互任务,以图片和问题作为输入,得到能够回答与图像内容有关的文本答案。然而视觉问答任务具有语言先验性,模型更加偏向仅依据问题与答案之间的关系回答问题,较少考虑图像内容,而且相关数据集候选答案分布也不平衡。基于此,本文提出了两种处理语言先验的方法:针
学位