用于图像问答的深层注意力网络结构研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:competent110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像问答又称视觉图像测试,是指给定一幅图像和一个用自然语言描述的问题,计算机能自主根据图像内容做出相应回答的过程。它是深度学习在计算机视觉领域成功应用的主要研究方向之一。随着人工智能、自然语言处理、深度学习、图像识别等技术的发展,图像问答在汽车导航、盲人识路、机器人系统等领域将有广泛的应用。由于计算机不能完全像人一样感知图像信息,图像问答的准确率主要依赖于图像特征表示和语言文本描述。本文对图像特征表示、文本表示及其图像文本的融合模型进行研究,并对图像问答所用的网络结构进行分析,以提高自动图像问答的准确率。在图像特征表示中,选择具有局部区域感知性的卷积神经网络进行图像表示,获取深层图像信息;在文本表示中,利用长短期记忆网络能描述文本前后信息的特点表示语言描述的问题;根据图像问答的要求,选取注意力机制,将图像特征表示与文本表示进行融合,得到融合模型,形成注意力网络;由于单层注意力网络和双层注意力网络存在误判的情形,本文又对融合模型进行改进,加深网络层次,增强文本信息和减弱文本“记忆”衰减,形成深层注意力网络,并对该网络结构进行研究。随后,本文选择公认的三个图像问答集,分别是DAQUAR-ALL、DAQUAR-REDUCED和VQA,对基于深层注意力网络的图像问答方法进行实现。在深层注意力网络与双层注意力网络模型的实验比较中,实验结果显示深层注意力网络的图像问答准确率更高;在不同层数的深层注意力网络实验比较中,实验结果显示图像问答的准确率随着网络层数的增加也有一定提高。实验结果表明,本文所研究的深层注意力网络结构有助于提高图像问答的准确率。
其他文献
[目的]探讨经皮神经电刺激联合膀胱功能再训练对神经源性膀胱功能恢复的影响.[方法]选择86例脊髓损伤后神经源性膀胱病人为研究对象,随机分为观察组和对照组各43例.对照组给
深入学习贯彻落实习近平总书记“三篇光辉文献”,努力将中央、省委、市委经济工作会议精神送到最基层。建立常态化学习机制,抓好中心组理论学习、干部理论讲座,深刻理解“经济之
报纸
目的:探讨microRNA-98(miR-98)对视网膜母细胞瘤Y79细胞增殖和转移的影响。方法:将人视网膜母细胞瘤细胞株Y79分为四组:miR-98干预组、阴性miRNA对照组、空白脂质体组和空白对照组
以文献研究为线索,对2000-2008年在国内12种主要外语期刊上发表的有关大学英语教学评价研究的文章进行检索,在统计分析检索所得的17篇相关论文的基础上,指出我国的大学英语评
随着我国高职教育的大发展和学习型社会的建立,高职院校教师队伍面临着日益严重的危机和挑战。在建设学习型社会的背景下应充分认清高职院校教师再培训的必要性和重要性,并针
目的:探讨抗癫癎药物对大鼠海马胶质细胞凋亡的影响。方法:35只60天龄SD大鼠随机分为生理盐水组(NS)、戊四氮(PTZ)组、卡马西平组(CBZ)、丙戊酸钠组(VPA)、苯妥英钠组(PHT)、
河北梆子《活捉三郎》是一出传统的优秀剧目,选自中国四大名著《水浒传》里的一个故事,说的是水性杨花闫惜娇移情别恋,被宋江杀死后,她的鬼魂为了爱慕张文远的潇洒深夜相仿的
高考具有一定的选拔能力,是对学生综合发展水平进行的一项考核,与传统的高考模式不同,新高考更加重视同学们的综合能力考察,强调在具体环境下学生的实践能力。学生在面对新高
目的初步探讨卡介苗(Bacillus Calmette-Guerin,BCG)分泌性蛋白在体外培养试验中对人单个核细胞的刺激效应。方法用淋巴细胞转化试验(MTT法)检测单个核细胞经卡介苗纯蛋白衍化物(BC
随着环境问题的日益凸显,许多发达国家的企业把环境绩效审计作为环境管理的重要手段之一。然而,我国有关企业内部环境绩效审计的研究还比较少,还没有建立起比较完善的评价指