基于深度学习的图像语义描述方法研究

来源 :延安大学 | 被引量 : 0次 | 上传用户:yuechao002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Alex Krizhevsky在2012年ImageNet竞赛中提出深度卷积神经网络模型AlexNet并获得当年冠军,人工智能(Artificial Intelligence,AI)再次掀起了一股研究热潮。作为人工智能的重要分支之一,计算机视觉(Computer Vision,CV)也随着深度学习模型的建立而蓬勃发展。现代科技生活带来了各种各样的图像,这些图像大多没有具体的语言描述,人类可以很容易理解它们,但机器很难完整地描述图像内容。图像语义描述(Image Captioning)的功能是输入图像,并将有关图像的所有自然语言描述输出,这是一项结合了计算机视觉和自然语言处理(Natural Language Processing,NLP)的任务。对比传统目标识别与检测方式,该任务面临的挑战更大,这是由于算法除要实现目标检测之外,还要对各目标间的关系进行分析,再通过自然语言加以描述。迄今为止,图像语义描述任务仍存在许多问题:(1)卷积神经网络(Convolutional Neural Networks,CNN)是计算机视觉中的主要图像特征提取方法,但它不能获得图像对象之间的关系以及它们之间的层次交互;(2)循环神经网络(Recurrent Neural Networks,RNN)及其扩展(LSTM、GRU等)已经成为当前流行且有效的跨域序列数据建模框架。在图像语义描述任务中,由单层循环神经网络生成的图像描述的语句过于简单,在生成过程中没有推理;(3)图像的属性之间的联系太少,导致生成图像描述的语句没有突出图像的更具体的关键表达。为此,我们做了以下工作:(1)提出了一种基于图卷积网络(Graph Convolutional Networks,GCN)的图像语义描述算法。该算法将图像内各个层次与对应边界框视觉信息间的层次交互现象也考虑在内。在编码器(Encoder)端利用图卷积网络提取图像的特征信息,然后将提取的信息输入到解码器(Decoder)输出图像语义描述。本模型应用于实验取得了显著效果。(2)集束搜索(Beam Search)是一种应用于单向神经网络模型解码序列的近似推理算法。由于生成的图像描述的语句过于简单,不能突出图像的重点,我们采用集束搜索算法结合注意力机制来生成图像描述语句。实验证明,该方法使得图像描述生成过程中具有一定的推理性。(3)针对传统图像语义描述任务输出的图像描述不具体描述图像内容、生成的语句描述不完整、语句单一的事实,利用生成式对抗网络的思想生成图像描述,使得生成的图像描述语句更加灵活。实验证明了该方法的有效性。
其他文献
题材分析能通过分析不同体裁的语篇的结构特点和语言表现形式来揭示其语义内涵。文章运用体裁分析的理论和方法,对收集的10份旅游景点的英文介绍进行了结构层面和语言体现层
随着社会经济的不断发展,城镇化的持续推进,人口老龄化程度的加深,居民对基础医疗卫生服务的需求也随之增加,而基础医疗卫生资源本身的稀缺性制约了其对人民群众需求的满足程度,同时地区间基础医疗卫生资源的供给出现差异。因此,如何进一步提升基础医疗卫生资源的供给能力,同时缩小地区间的差异,促进基础医疗卫生资源供给均等化,最终实现医疗卫生事业的协调发展成为了迫切需要解决的问题。本研究主要针对山东省基础医疗卫生