论文部分内容阅读
图像描述生成结合了计算机视觉和自然语言处理2个研究领域,不仅要求完备的图像语义理解,还要求复杂的自然语言表达,是进一步研究符合人类感知的视觉智能的关键任务.对图像描述生成的研究进展做了回顾.首先,归纳分析了当前基于深度学习的图像描述生成方法涉及的5个关键技术,包括整体架构、学习策略、特征映射、语言模型和注意机制.然后,按照发展进程将现有的图像描述生成方法分为四大类,即基于模板的方法、基于检索的方法、基于编码器-解码器架构的方法和基于复合架构的方法,并阐述了各类方法的基本概念、代表性方法和研究现状,重