结合注意力和长短期记忆网络的图像描述方法研究

来源 :江西理工大学 | 被引量 : 0次 | 上传用户:zsq789456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像描述是一种涵盖机器视觉和自然语言处理的多模态人工智能技术,能够使得机器生成描述当前图像语义内容的句子,在智慧交通、智慧城市的建设中具有广泛的应用价值。传统基于模板、基于检索的方法使得图像产生的描述句子不够灵活,局限性十分明显。基于深度学习的卷积神经网络和循环神经网络搭建的编码器—解码器框架为解决图像描述任务提供了完整的解决方案,越来越受到科研工作者的青睐。但是现有的方法还存在提取图像关键信息时精度不高、训练速度缓慢、模型产生的结果在评价指标上分数不高的情况。针对以上问题,本文提出了改进优化模型的方法和策略。本文研究内容和创新工作包括:1)提出了一种基于Inception-ResNet-V2以及卷积注意力机制的图像描述生成方法。在融合图像注意力机制的编码-解码图像描述模型框架中,为了提高模型对图像特征提取的能力,使得模型在生成语言描述时主体更加明确,本文使用精度更高的Inception-ResNet-V2作为特征提取网络。为了解决解码器训练速度缓慢的问题,本文在传统图像注意力机制中引入全卷积操作替代传统的全连接操作,减少了模型参数数量。2)提出了一种基于残差连接以及语言注意力机制的图像描述生成方法。相关研究结果表明,在解码部分使用双层长短期记忆网络(LSTM)搭载注意力机制能够增强语言模型生成描述图像句子的能力。但双层LSTM的模型参数量大,层次深,容易出现梯度消失的现象。为了解决这一问题,本文在双层LSTM之间使用残差连接来增加语言单词向量的相关性。在特征提取阶段,通过引入目标检测网络来提取图像特征,使得模型从一开始就注意到图像关键的区域。不仅如此,本文还设计了基于语言特征的注意力机制,提升了语言模型的性能。最后,本文使用强化学习策略来进一步优化模型,在语言生成模型中通过贪心算法得到句子在CIDEr评价指标上的得分为奖励对上述两种模型进行优化。综上所述,本文对基于深度学习的图像描述算法进行了研究和改进。实验结果表明,本文提出的图像描述算法相对于传统的方法,能够有效地提升图像描述算法的性能,更加准确地生成图像的描述文本。
其他文献
本文研究对象为应用于电驱动车辆的驱动电机与两挡大阶比行星自动变速器集成的电驱动系统,具有传动效率高、传递扭矩大等优点,而且能够通过换挡过程的驱动电机与组合式离合器
近年来,随着物联网和移动互联网等技术的蓬勃发展,新兴数据业务和应用不断出现。新兴数据业务和应用的出现为人们的日常生活提供了极大的便利,但同时也给现有的网络结构带来
作业车间调度问题(Job-Shop Scheduling Problem,JSP)是最为经典的一类车间调度问题,该问题的研究能够帮助企业提高生产效率,提升企业管理能力。作业车间调度问题主要特点是
观众群体是体育赛事的观赏者、见证者和受益者,体育观众是体育赛事重要组成部分。青少年是体育观众群体的一部分,培养青少年体育观众进行观赛,才能引起他们关注并且对体育项
随着超宽门幅产业用纺织品的需求持续增长,促使现有的引纬技术面临新的挑战,因现有引纬速度难以达到超宽门幅的引纬要求,且以现在普遍的织机引纬方式来看,喷水、喷气、片梭和
表面张力限制的液滴微流控技术在生物、化学等领域有着广泛的应用,使用简便而高效的方法制备出微液滴阵列是表面张力限制的液滴微流控领域近年来的研究热点之一。利用微液滴
镍基高温合金GH4169在650℃-1000℃的高温下仍能保持良好的物理力学性能,因此被广泛的应用在航空发动机的涡轮盘和叶片的制造中。但镍基高温合金在加工过程中存在塑性变形大
当前我国经济社会步入到新的阶段,各行各业也都进入到新常态发展时期,需要开展全面深化改革。教育行业早在上世纪90年代就已经提出要全面推进素质教育,构建一个能满足21世纪
随着新课标的实施、新课程改革的实施以及国家对培养人才要求的提高,探究性教学越来越受到教育者的重视。探究性活动的开展不仅能够调动学生学习的积极性,还能培养学生的综合
近年来,我国电梯数量连年高速增长,体现了电梯在现代生活中占据的地位越来越重要,在人们的日常生活中,电梯已经成为每天出入最为频繁的场所之一,因此针对如何确保电梯稳定运