基于深度学习的图像字幕生成研究

来源 :四川大学 | 被引量 : 0次 | 上传用户：cy58452

【摘要】

：

【作者】

：

刘培

【机构】

：

四川大学

【出处】

：

四川大学

【发表日期】

：

2021年01期

【关键词】

：

字幕生成注意力机制对偶学习故事生成图像评论深度学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

图像和文本是当今两种主要的信息载体,其中图像具有生动形象的特点,而文本概括性强,能够以简练的形式传递信息。图像字幕生成旨在让计算机自动地使用文本对给定的图像加以描述,其在图像检索、人机对话、盲人导航、自动安防等应用中被广泛使用。本文基于深度学习对图像字幕自动生成进行研究,具体的工作包括基于全局注意力机制的图像字幕生成、基于词性先验的图像字幕生成、基于对偶学习的图像字幕生成、基于层次主题网络的故事生成、基于交织层次网络的图像评论生成。主要的研究成果总结如下:（1）针对当前图像字幕生成方法从局部区域特征集中提取视觉信息时,容易受到干扰的问题,提出了一种基于全局注意力机制的字幕生成方法。该方法首先对图像局部区域在字幕文本中被提及的概率进行预测,作为全局信息,然后在每个单词生成时,将其融入到视觉信息的提取过程中,旨在能够将更多的注意力放到当前最相关的局部区域上,即通过赋予这些区域对应的向量特征更高的权重,来为当前单词的生成提供更加准确的视觉信息,从而生成更加高质量的字幕文本。（2）针对当前绝大多数图像字幕生成方法从场景图中提取视觉信息时,往往忽略了图中结点种类与字幕单词词性之间内在联系的不足,提出了一种基于词性先验的字幕生成方法。该方法在每个字幕单词生成时,预先对单词的词性进行预测,作为该词的词性先验,然后利用其来为不同种类的结点赋予不同的权重,旨在生成某种词性的单词时,将注意力更多地放在其所对应种类的结点上,如在生成形容词词性的单词时,将把更多的注意力放在图中的属性结点上,而在生成名词词性的单词时,把更多的注意力放在图中的物体结点上,利用这种方法来提取更加准确的视觉信息,提高字幕文本生成的质量。（3）针对当前通常分离地对字幕生成与图像生成进行研究,忽略了两者之间的对偶性质的现状,提出了一种基于对偶学习的图像字幕生成方法。该方法是基于字幕生成与图像生成可以形成一个闭环来提供信息反馈的事实进行构建,即每个模块的输出都能作为对方模块的输入。利用对偶模块为当前生成的字幕或者图像来进行反馈奖励的计算,再进一步使用该奖励来指导模型进行强化学习训练,从而生成更高质量的字幕文本和图像。本文研究了两种不同模式的对偶学习方法,即单对偶学习方法与联合对偶学习方法,这两种方法均能提升图像字幕生成的性能。（4）针对当前字幕生成模型生成的序列文本彼此之间缺乏关联,不能形成一个完整故事段落的问题,提出了一种基于层次主题网络的故事生成方法。该方法的主要思想是预先为段落中每一个文本进行主题规划,用于指导故事生成模块生成特定主题的文本,从而让序列文本在主题层面上保持连贯,形成一个完整的故事。实验结果表明,利用主题来关联各个序列中的文本,生成的故事文本之间具有良好的连贯性。此外,还提出了一种新的序列文本生成的强化学习方法,用于提出的故事生成模型的训练。（5）针对当前绝大多数图像字幕生成模型只能给出描述性文本的现状,提出了一种新的图像字幕生成的应用任务,即图像评论。相较于经典的字幕生成,该任务旨在生成具有社交吸引力的对话文本,能够让聊天机器人与用户在图像-文本的人机对话中建立长期的、情感上的联系,最大可能地吸引用户的注意力,从而更加积极地参与到聊天中。本工作搜集了一个用于该任务的数据集,以及提出了一个交织的层次神经网络,其可以在情感模式和事实模式之间交织变换,从而生成具有吸引力的图像评论文本。

其他文献

巴尔蒂斯绘画作品中的猫 ——论艺术家个体精神符号的艺术化表达

学位

基于用户可参与式设计理念的服装设计应用研究

学位

公共空间的生成与变迁 ——以黄桷坪“交通茶馆”为例

学位

从鲁迅“侨寓文学”论看清末民初士绅阶层的流动与文学生产

鲁迅所言的“侨寓文学”是社会流动的产物。社会的现代转型及其士绅流动带来了现代作家的侨寓体验，直接影响了现代文学的生产。作为“他乡客”的侨寓主体，失去士绅时期政治经济特权的作家在残酷的现代求生场中开始关注生计问题，促使文学从古典性中“脱出”并呈现出“世俗性”的现代化表征，包括对文学功用世俗化、经济化的认知以及构建的一系列经济叙事。“侨寓”和士绅流动的生命经验再造延展了现代文学的叙事时空，包括旧时（青

期刊

鲁迅侨寓文学乡土文学社会流动文学生产

乐营淀山湖国际营地特色课程满意度研究

文章通过文献资料法、逻辑分析法、问卷调查法,对乐营淀山湖国际营地特色课程设置满意度进行研究。文章分析得出:江苏省乐营淀山湖国际营地特色课程在实施过程中灵活运用多种方式增加了课程趣味性,能有效提升参与者的团队协作能力。其不足方面主要表现在课程结构缺乏层次性、拓展课程情境感有待提升等。

期刊

课程设置营地教育青少年

无线移动医疗大数据健康管理平台构建

随着医疗事业的发展和进步,医疗设备、平台在不断地完善。尤其在信息时代的背景下,大数据技术的应用愈加广泛,医院已经开始采取信息化、动态化的管理模式,利用信息技术提升医疗服务水平,采用无线移动网络的同时,运用大数据健康管理平台,结合便携型的家用监测设备对患者的健康情况进行监测管理。尤其在疫情防控期间,基于医疗大数据研发的互联网医疗APP发挥了巨大的作用。本文就医疗大数据健康管理平台的建设及应用效果进行

期刊

外周血T淋巴细胞亚群与慢性肾脏病患者感染并发症和肾脏终点事件的关系

背景:慢性肾脏疾病（Chronic kidney disease,CKD）的发病率和死亡率高,使之成为世界性公共卫生问题,给国家造成了沉重的负担。CKD患者肾功能持续恶化将发展为终末期肾病（end-stage renal disease,ESRD）,并接受终身替代治疗。目前对CKD进展没有针对性治疗,患者的生存和生活均受影响。免疫功能的异常,特别是细胞免疫缺陷在CKD进展中的作用不容忽视,这一现象

学位

慢性肾脏病T淋巴细胞亚群感染肾脏终点事件

清代台湾进士研究

学位

面向乳腺X光图像分类的神经网络方法研究

乳腺癌是多数国家女性人群中发病率最高的癌症,研究表明,乳腺癌的早期准确诊断并及时治疗能够大大降低其致死率。乳腺X光检查是全世界范围内使用最广泛的早期乳腺癌筛查手段之一,也是唯一被证明可以显著降低乳腺癌带致死率的医学影像学方法。使用乳腺X光进行乳腺癌筛查时,会产生一系列乳腺X光图像数据,放射医师根据这些图像数据进行良恶性诊断,而诊断结果与医生个体经验水平有着直接联系。随着计算机技术的发展,计算机辅助

学位

神经网络乳腺X光图像分类多实例分类迁移学习乳腺肿块定位乳腺肿块分类

新世纪中国对非洲援助的经济增长效应研究

新世纪以来,随着“中非合作论坛机制”的建立,中非战略合作伙伴关系的确立,尤其是中非命运共同体的构建,中国对非洲援助秉承“义利相兼”的理念,充分彰显“平等、互助、互惠、精准、包容”的援助特征,对非洲援助的力度和深度都呈现出前所未有的提升,在国际对非洲援助领域发挥着举足轻重的作用。面对国际风云变幻,中国坚守和平与发展的时代主旋律,构建中非命运共同体将成为新世纪中国对非洲援助的首要目标和行动方向。虽然国

学位

对非洲援助南南合作中非命运共同体经济增长效应

基于深度学习的图像字幕生成研究

其他学术论文