基于深度学习和多指标强化学习的图像描述生成

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:mythzhang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像描述生成是计算机视觉、自然语言处理和人工智能领域中的一项重要研究课题,在人机交互、医疗视障辅助、智能安防预警、社交影像娱乐等新兴应用中受到了广泛关注。图像描述生成旨在理解并提取自然图像中的语义信息,并用如同人类描述一般准确流畅、生动形象的语言刻画出来。然而,由于图像场景丰富、内容对象多样、目标关系复杂,因此,如何对场景进行有效感知、对内容精准识别、对目标关系精确描述,以及生成准确、流畅且优美的文本描述,都是图像描述生成任务所面临的巨大挑战。本文分别针对图像描述中注意力机制缺乏联合上下文信息、网络框架正向而单一,以及学习策略缺少多指标引导的问题,分析图像描述机理,利用神经网络提取的深度信息,分别构建联合注意力网络模型、特征重建网络和多指标强化学习方法,有效提高图像描述生成的准确性和自然性。主要研究内容和成果如下:(1)提出了一种基于联合注意力机制的图像描述生成方法。首先,在编码器部分,分别利用Res Net-101网络和Faster R-CNN网络提取图像的特征。其次,将图像的特征与训练数据库中标签文本的单词嵌入向量相结合,共同作为由注意力长短期记忆网络和相邻时间节点联合注意力模型所组成的两级注意力网络的输入。最后,将注意力网络模型的输出结果依次通过语言长短期记忆网络以及Softmax层,进而生成最终的描述语句。实验结果证明,该方法提高了图像中目标识别的准确度,对目标之间关系的描述也有较大改善。(2)提出了一种基于特征重建的图像描述生成方法。首先,分别从全局角度和局部视角,设计了基于全局选择机制和局部选择机制的特征重建网络。其次,在此基础上,构建一个结构为编码器-注意力网络-解码器-特征重建器的网络模型框架,既考虑由图像到描述文本的正向生成过程,又实现由描述语句到图像特征的反向重建过程。最后,利用能够衡量图像和描述文本之间双向匹配性的重构特征差异度计算公式,进一步丰富损失函数。该方法经实验表明,能够更好地指导网络进行学习和训练,且取得了一致性较好的描述结果。(3)提出了一种基于多指标强化学习的图像描述生成方法。首先,联合图像-描述层面和描述-描述层面,设计两阶段式的多指标强化学习网络训练法。在第一阶段中,使用由交叉熵函数以及重构特征差异度组成的损失函数,预训练端到端网络。其次,在第二阶段,将交叉熵公式用多重度量指标奖励函数替代,从而构成新的损失函数,对网络参数进行微调。最终,通过度量指标的敏感性分析以及较充足的实验,验证了该方法在客观和主观评价方面的优越性。本文从图像描述的注意力机制、重建特征和学习策略三个方面,提出了改进的模型与方法。这三种方法着眼于图像描述任务中的不同部分,也可进行叠加使用。实验中,分别从定量和定性两个方面进行离线或在线评估。实验结果表明,本文方法不仅在客观评价指标上得到了较大提升,描述语句的主观感知结果也更为准确。
其他文献
本文通过分析园林施工企业造价管理现状流程和管理过程存在的问题,提出了园林工程实施阶段造价管理研究的必要性。通过分析项目实施过程不同阶段造价管理的内容,明确各阶段造价管理的要点,并在此基础上构建园林施工企业全过程工程造价管理体系,设计了全过程工程造价管理体系系统图。从工程投标到工程交接,进行了全过程工程造价管理体系六个实施过程管理策略研究:采用一元线性回归法与市场询价相结合的投标阶段成本测算的方法,
发展新型智慧城市是国家重要战略,以构建“城市大脑”为核心的新一代智能化设施为基础,打造安全和便捷的智慧生活。城市中海量摄像头与监控视频数据的分析和高效利用是实现新型智慧城市的核心关键之一。本文主要针对视频中最关键的行人进行重识别,即在一个非重叠视域的多摄像头网络采集的视频中,搜索匹配给定的目标行人图像,用于跨摄像头的行人分析、检索和追踪,是实现智慧城市和智能安防的核心技术,已成为计算机视觉领域的研
随着智能电网的发展,准确的电力负荷预测变得越来越重要,因为它可以帮助电力公司更好地进行负荷调度并减少过多的电力生产。智能电网中的日常运营和规划需要提前一天对其客户进行负荷预测。然而,电力负荷预测是一项具有挑战性的任务,因为它依赖于外部因素,如气象和外生变量,其困难之处在于影响因素繁多,且规律变化万千无从寻觅。本文先阐述了短期电力负荷预测的背景及意义,机器学习应用于智能电网负荷预测的研究现状。再对某
三农问题始终与人民的生活息息相关,而土地作为其形成的重要地位毋庸置疑。从改革开放初期土地所有权和使用权的分离,到21世纪初期的土地使用权开始流转,再到新时代时期土地的所有权使用权和经营权的分离,从始至终都在围绕“土地”展开实施,始终站在人民的立场上努力提升人民的生活水平,但诸多政策实践时难免会遇到一些困境,诸如交易市场不完善,流转后农民的生活未有保障,土地的“圈地运动”等,此种现象严重影响社会秩序
随着21世纪信息技术的发展,互联网带来的信息革命已经深入各行各业,大大促进了经济,文化,社会等各个方面的快速发展。互联网中的浩如烟海的程序代码是由一位位辛劳的程序员而写,不可避免地会出现漏洞。到如今,软件漏洞已经存在了至少30多年,每一次漏洞的爆发都会给社会带来巨大的经济损失。Linux是现代互联网发展的基石,软件漏洞的攻击与防御技术在过去几十年中螺旋发展,防御者提出了各种各样的防御技术。时至今日
金属板带材是冶金工业的主要产品之一,广泛应用于家电、军事和化工等支柱行业。表面质量是板带材的关键质量因素之一,传统基于机器视觉的表面缺陷检测算法存在检测效果不够理想、检测速度较慢、推广性能差和适应性差等不足。因此有必要研究智能自动化缺陷检测算法来提高缺陷检测的效率及准确率。本文以金属板带材表面缺陷为研究对象,将深度学习领域中的深度卷积神经网络(Deep Convolutional Neural N
金属氧化物半导体纳米材料因其具有独特的物理和化学性质而在气敏传感器领域里有着深入的研究和广泛的应用。众所周知,材料的性能很大程度上取决于其晶粒尺寸和微观形貌,因此我们需要深入研究金属氧化物纳米半导体气敏材料结构、形貌与其气敏性能之间的内在联系,进而从调控材料的晶粒尺寸和微观形貌入手,探索提高材料气敏性能的可靠途径。本论文采用水热法制备了BiVO_4材料,探究了Bi(NO_3)_3水解形式以及添加表
改革开放四十年来,我国经济发展迅猛。但是随着经济发展,环境问题日益凸显,已经成为阻碍我国经济可持续发展的重要因素。因此,如何在发展经济的同时保护环境已成为我国新时期经济发展所面临的重要考验之一。企业作为社会经济的主体,在促进社会经济发展和居民就业的同时,也导致了严重的环境资源破坏问题。为了降低企业污染,促使其履行环保责任,除了行政约束,还可以尝试运用经济手段。绿色信贷政策要求银行严格控制高能耗,高
港口是物流链的枢纽之一,对地方经济及产业布局有着决定性影响。近年来,随着港口行业发展建设,国内港口行业呈现产能过剩、投资庞大、竞争激烈的发展态势,各地港口发展逐渐回归于周边腹地,对于区位优势不利的A港油品公司产生一定冲击。但与此同时,东北老工业基地振兴、“一带一路”战略、港口整合趋势,以及新能源产业发展,也给A港带来了前所未有的发展契机,如何在新形势下及时做好战略转变,是A港油品公司当下面临的重要
生产调度是智能制造系统中管理决策和资源分配的关键环节,采用高效的调度方法可有效提升企业生产效率,实现节能减排。柔性作业车间调度问题是一类典型的生产调度问题,广泛存