基于深度神经网络与自适应注意力机制的图像描述方法研究

来源 :广西民族大学 | 被引量 : 0次 | 上传用户:peipei713988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像描述涉及了计算机视觉和自然语言处理两大领域,是一项极具挑战性的研究任务。该任务的目标是让计算机能够自动地为图像生成一段描述性文字。与传统的图像描述方法相比较,基于神经网络的图像描述方法更加高效,并且能够为图像产生更加自然的描述语句。本文结合深度神经网络与注意力机制,研究高效的图像描述算法,主要研究工作和创新点如下:(1)提出了一种基于长短期自适应注意力的图像描述模型。传统的基于注意力机制的图像描述模型通常将注意力机制与长短期记忆网络相结合,并根据长短期记忆网络的隐藏层状态来调整模型的注意力。但由于隐藏层状态存储的信息有限,在没有足够的信息作为参考的情况下,模型很难定位到与当前时刻相关性较高的图像区域。针对这个问题,本文提出了基于长短期自适应注意力的图像描述模型,该模型分别使用长短期记忆网络的隐藏层状态和记忆单元状态来引导两个注意力模块,并通过调节因子将它们联系起来,使模型可以同时参考两方面的信息来推断出当前时刻应该关注图像的哪些区域。通过相应的实验并与主流的图像描述模型对比,验证了所提出模型的有效性。(2)在本文已有工作的基础上,考虑到注意力模块产生的加权图像特征在产生单词的每个时刻都会发生改变,若把它和词向量一起输入到长短期记忆网络,不利于长短期记忆网络学习文本序列,因而进一步提出使用全局图像特征代替加权图像特征输入到长短期记忆网络的方法。相关的实验结果表明所做的改进能更进一步地提高模型的性能。
其他文献
植物仿真是计算机图形学和三维动画技术的研究热点之一,在计算机视觉、计算机游戏和虚拟现实等领域都发挥着重要作用。花卉仿真作为植物仿真的重要分支,是三维虚拟景物仿真中
改革开放40年来,温州在时代巨变的浪潮下始终以敢为天下先的改革创新精神在不断变化、充满未知与不确定性的环境中,创造出了享誉全国的"温州模式"。基于哈耶克理性观的方法论
《蒙疆新闻》是由蒙疆新闻社在“蒙疆”地区发行的日文日刊报纸,1938年6月10日创刊,1945年停刊。作为在“蒙疆”地区及日本国内发行的报纸,该报以宣传“国策”和“蒙疆”为目
深度学习发展迅猛,已应用于各个领域,无论是对声音数据、图像数据还是文本数据都获得了一定的成效。但由于图数据的特殊性,想要在图数据上使用深度学习方法并不轻松。大规模
激光扫描技术在自由空间光通信、航空航天、激光雷达和激光成像等领域应用广泛。光学相控阵扫描技术是一种很有发展前景的新型扫描技术,能够不移动激光扫描系统就完成精准迅
随着科技的发展和社会的进步,机械臂的应用越来越广泛,论文以直流伺服电机为驱动器的工业机械臂的控制系统为研究对象进行研究。实际应用中,不仅要对机械臂实施精确的控制,还
建国以来我国铀矿资源经历了50多年的开采,其浅部储量已近枯竭,随着国家积极推进核电行业的发展建设,深部铀矿井的开发利用已成为一个刻不容缓的问题。基于深部铀矿工作人员
电主轴是数控机床的关键功能部件,对高速数控机床、高速加工技术乃至制造业的发展有着重要影响。研究电主轴的故障诊断方法对挖掘电主轴的潜在故障、故障快速定位及维修等方
随着移动通信在近几十年来的迅速发展,5G时代已经到来。陆地移动通信系统可以满足用户大部分需求,但是它无法满足在海洋、人口稀疏的陆地等场景需求,非地面网络(Non-terrestr
随着第五代移动通信(The Fifth Generation of Mobile Communication Systems,5G)的商用化,卫星通信与地面5G的融合已成为业界研究的一个重点方向。低轨卫星网络能够覆盖全球