基于视觉问答模型过自信正则化方法研究

来源 :阜阳师范大学 | 被引量 : 0次 | 上传用户:QUEEN_ZX
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅速发展,深度学习在计算机领域受到越来越多的学者们的关注。随之衍生的多模态任务,例如图像描述、OCR、图像字幕、视觉问答等也备受计算机领域的学者关注。其中,视觉问答(Visual Question Answering,VQA)任务逐渐成为学者们讨论的热点。VQA任务是指让计算机来回答与图像相关的问题,即给定一张图像和与该张图像相关的采用自然语言方式来表示的问题。VQA任务就是让模型能够回答出关于这张图像问的问题。视觉问答任务不仅需要VQA模型的算法能够充分理解并有效的表征出图像的内容,还需要模型充分理解询问的问题。由此可知,VQA模型需要同时具备自然语言处理和对图像处理的能力。在近几年里,VQA得到了计算机领域大量学者的关注,因此也涌现出了各种VQA算法,如以注意力机制为基础的算法,添加外部知识库的算法,基于关系推理的算法等。然而这些算法大多存在语言先验,即算法依赖答案与问题之间的统计规律在没有充分理解图像内容时就能准确回答问题,这使得模型很难应用到不同的数据集中。本文主要工作如下:(一)针对经典VQA算法——基于注意力机制的Up Dn模型,对其结果进行详细分析。由于视觉问答任务传统意义上算是一种分类任务,预测分类最大值即为模型认为正确的答案,为此本文将模型预测最大值定义为模型自信度。本文统计Up Dn模型自信度分布,发现该模型无论是在训练集上还是在测试集上都存在着相同的概率分布。本文进一步统计在不同概率区间回答的准确度,发现在训练集上,随着自信度增大,模型回答准确度增大,而在测试集上则出现断崖式跌落。(二)针对本文的分析,本文提出传统视觉问答算法Up Dn模型存在过自信现象。本文采用同样的分析方法进一步分析了Re GAT模型,CSS模型,Ru Bi模型等,发现同样存在这种过自信现象。(三)为了解决模型存在的过自信现象,本文提出一种过自信正则化方法,通过最小化模型的预测值,来减少训练集和测试集的偏差,从而调整模型预测值的概率分布,改善模型过自信的表现,达到提高模型准确度的目的。(四)为了进一步区分过自信和过拟合的区别,本文又针对经典数据集cifar10进行分析,构建了一个过拟合模型,发现该模型处理cifar10数据集时虽然存在过拟合现象,但不存在过自信表现。而本文的过自信表现的模型(Up Dn,Re GAT,…Ru Bi)不仅存在过自信还伴随着过拟合。为此本文得出过自信是过拟合的一种具体表现形式。过自信的模型一定存在过拟合,而过拟合的模型不一定伴随过自信。本文提出的过自信正则化方法在VQA-CP v2上进行了实验,通过实验,将本文的方法与现有的方法进行比较,平均模型精确度在VQA-CP v2上提高14个百分点。
其他文献
本文主要研究了带波动算子的非线性Schr(?)dinger(NLSW)方程的Du Fort-Frankel差分法及其理论分析。本文共四章,具体研究工作如下:第一章介绍了 NLSW方程的应用背景、研究现状和本文的主要工作。第二章建立了求解一维和二维NLSW方程齐次Dirichlet边值问题的两类Du Fort-Frankel差分格式,证明了这些格式在离散意义下保持总质量守恒和总能量守恒。运用能量法、
学位
兴国必先强师。校本研修是促进教师专业发展的重要途径,也是改善乡村教育水平、落实基础教育“双减”政策要求、提升乡村教师整体素质的必要选择。但是,在现阶段,乡村教师研修在资源、管理、方式等方面与城市学校相比,还存在一定差距。随着网络信息传播技术的发展与应用,为乡村教师校本研修提供了新的发展机遇,同时也提出了更高的要求。如何立足于乡村学校教师发展的实际,特别是在当前新冠肺炎疫情防控常态化的背景下,探寻一
学位
自然语言处理和计算机视觉借助深度学习技术不断取得新突破,以图像和文本为基础的跨模态交互慢慢成为研究热点,视觉问答(visual question answering,VQA)任务作为多模态研究内容之一也越来越热门。视觉问答任务是计算机模型对输入的图像提取出视觉特征,对输入的问题提取出问题特征,经过跨模态融合得到图像和问题的联合向量,最后使用预测函数输出答案的多分类任务。相比于单一的计算机视觉或自然
学位
图像分割是计算机视觉的一个非常经典的难题,对图像分析和图像理解具有重要的支撑作用。图像分割的实质是对一副图像进行目标与背景的分离,从而提取出感兴趣的区域。图像分割技术的应用领域较为宽泛,如人脸识别、无人驾驶和安防监控等。图像分割在医学图像辅助治疗中也发挥着重要作用,医学图像分割是图像分割领域最为重要的研究方向之一。近年来,人工智能的不断发展使得群体智能算法被广泛的运用到图像分割算法中,并且取得了不
学位
藏文古籍在我国各民族遗存的古籍文献中占据着重要地位,承载着藏族的文化和历史。但是由于藏文历史文献存放的时间太久,许多古籍图像文字出现模糊或者缺失,甚至有些文档无法翻阅,亟需数字化保护和整理。藏文古籍图像识别是数字化保护的重要组成部分,而藏文古籍图像行分割是字符识别的一个重要步骤。本课题主要研究藏文古籍图像行分割,针对藏文古籍图像的特点,提出了两种藏文古籍图像文本行分割的方法,主要内容有以下两个方面
学位
宇宙线探测实验中所采用的大气切伦科夫光望远镜,为了收集更多的切伦科夫光,通常需要安装大口径的反射镜。在宇宙线探测和分析过程中,望远镜反射镜反射率将直接影响切伦科夫光的测量。高海拔宇宙线观测站(LHAASO)中,共有18台切伦科夫望远镜。虽然生产厂家提供了反射镜的反射率参数,但是反射镜在长期使用中会因为老化或者磨损导致反射率会有不同程度的衰减。不同波长的光、不同的时间、同阵列下不同的望远镜的反射率也
学位
在多种复杂场景下进行车辆检测和提取到车辆重要信息一直是目标检测领域的重要研究方向之一。该问题的突破可以为智慧交通系统中的车辆统计技术提供基础,在一定程度上缓解交通拥挤问题,以及为车辆跟踪问题提供相应的技术支持,其中车辆是否能够准确检测是后续相关工作的前提,本文的主要研究工作及贡献如下。(1)为了降低选取先验框选取时间以及提升模型的检测精确度,利用k-means++聚类算法选取9个目标先验框和尺寸,
学位
近年来,基于计算机视觉和自然语言处理的多模态交互任务虽然取得了进展,却也出现了类别不平衡,模态无法对齐等一些具有挑战性的问题。视觉问答是一种经典的多模态交互任务,以图片和问题作为输入,得到能够回答与图像内容有关的文本答案。然而视觉问答任务具有语言先验性,模型更加偏向仅依据问题与答案之间的关系回答问题,较少考虑图像内容,而且相关数据集候选答案分布也不平衡。基于此,本文提出了两种处理语言先验的方法:针
学位
深度神经网络的出现为人工智能技术的研究注入了新的活力,并且已经较为成熟地应用在了图像识别、目标检测、语音识别等领域。作为人工智能新兴的热门研究方向,视觉问答(Visual Question Answering,VQA)任务也因此受益,近年来有了很多研究成果。现有的视觉问答模型由于受到语言先验的影响,预测准确率不高。模型能够学习到问题和答案之间的表面联系,而无法学习到它们之间更深层次的联系,容易出现
学位
随着弹幕评论功能在视频播放平台投入使用并受到用户的认可,视频中的弹幕量也随之增大。弹幕中表达对于视频情节的即时观点、感受等主观信息具有研究价值,但是利用现有的情感词典提取特定领域弹幕数据的情感信息并加以分析却颇有难度。本文以B站(Bilibili网站)视频弹幕为研究对象,针对常规情感词典不适用于视频弹幕领域的语料库且在情感分析上维度比较单一的问题,提出基于多维情感词典结合深度学习的方法研究分析弹幕
学位