融合检索与生成的图像描述方法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:mumuduck
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像描述是场景理解的重要研究内容之一,旨在根据图像内容生成相应的描述性文字,是一个充满挑战性的任务。图像描述同时涉及了计算机视觉和自然语言处理两个领域的内容,不仅需要捕捉图像中存在的目标以及目标之间的复杂关系,还要用语言将这些信息以文本的形式表达出来,图像描述任务在图像检索、智能人机交互、视觉障碍辅助等方面有着广阔的应用前景。传统的图像描述算法采用检索式方法,从预先构建好的图像-文本知识库中找出合适的句子作为目标图像的语言描述,虽然检索得到的句子很流畅,不会存在语法问题,但是受限于知识库的容量大小,检索得到的句子并不是为目标图像量身定制的。近年来,得益于深度学习的快速发展,采用Encoder-Decoder框架的生成式图像描述方法取得了巨大的进步,能够自由灵活地生成句子,但仍然存在一些缺陷,例如生成的句子语言不够流畅、缺乏多样性、信息量少等。论文针对上述问题,将检索式方法与生成式方法结合在一起,对图像自动描述算法进行了探索和研究,主要工作和贡献如下:提出了一个新颖的基于生成对抗网络的图像描述框架,该框架融合了检索式图像描述方法和生成式图像描述方法。生成对抗网络的判别器以检索得到的图像标注句子作为参考,辨别由生成器得到的句子与人工标注句子,并判断句子与图像内容之间的匹配程度。在检索句子的帮助下,判别器能够对句子质量做出更好的判断,并将准确的句子分数传递给生成器,从而提升描述文本质量。为了增加生成的图像标注所包含的信息量,论文将在自然语言处理中广泛应用的拷贝机制引入到了图像描述算法中,模型能够通过拷贝机制自动地从检索得到的句子中拷贝合适的词到生成的句子。此外,利用检索句子含有的语义信息对现有的注意力机制进行增强,引导模型生成更加合适的描述句子。为了验证论文所提出的模型的性能,在广泛使用的COCO图像描述数据集上进行了实验,通过消融实验,验证了所提出的模型各个模块的有效性;并通过与其它先进的图像描述模型(Soft-Attention、Adaptive-Attention、SCST、Stack Cap、Up-Down、DHEDN,等等)的对比,论文的模型在图像描述各项指标(BLEU、METEOR、ROUGE、CIDEr等)取得了较大的提升,证明了论文模型的效果。
其他文献
灾害救援的信息化处置是国家的重大需求,搭建灾害现场与指挥中心之间的信息互通是开展应急救援的关键所在。针对重大灾害的发生伴随的断电、断网等次生灾害造成的信息孤岛,本文工作在国家重点研发项目“基于广电体系的融合应急通信关键技术研究与应用示范”的支持下,开展面向应急救援场景的高效视频压缩方案,并研制面向融合通信的单兵应急救援装备,实现应急救援业务的高效传输,具体包括:(1)针对应急融合通信网络环境下带宽
骨与关节系统疾病是导致残疾、工作能力丧失和生活质量下降的最常见原因,其治疗往往需要使用植入物。可降解生物材料由于其模量与人体骨更加匹配,以及植入体内不需要二次手术等优点逐渐替代金属材料成为骨组织工程中的研究热点。其中聚乳酸(polylactic acid,PLA)由于具有良好的生物降解性和相容性被广泛应用于生物医疗中,但是其降解产物呈现局部酸性是限制其单独作为植入物的主要原因。羟基磷灰石(hydr
水声信道复杂且恶劣,具有多径效应严重、带宽有限等特点。正交频分复用技术(Orthogonal Frequency Division Multiplexing,OFDM)凭借其抗多径效应能力强、频谱效率高等特点在水声通信领域获得广泛应用。然而,要在复杂水下环境中实现高速水声OFDM通信面临诸多挑战,尤以接收端精确的信道估计更为突出。因此,本文将致力于水声OFDM通信系统中信道估计的研究。本文从频域和
氧化锌(ZnO)作为一种传统的金属氧化物半导体材料,在发光二极管、光催化剂、光探测器及传感器等领域展现出了巨大的应用潜力。在ZnO多种形态的纳米结构中,一维(1D)结构具有直接用于制造器件的潜力,其独特的形态为载流子的输送提供了高效的平台,对于电子和光电设备来说非常有利。研究ZnO在光的作用下载流子的产生与复合的基本过程是改善和提高器件性能的基础。本文选择水热法制备的ZnO纳米棒阵列膜作为研究对象
马克思主义中国化的民族性体现为马克思主义在中国的本土化进程中被赋予的民族性格,反映了马克思主义在跨文化传播、理论接纳、实践和再阐释的过程中如何拥有民族身份,并被赋予中国特色。从本土化视角出发,马克思主义中国化进程可以理解为认知维度的本土化,包括语词的本土转化和思想的本土表达(话语),及实践维度的本土化,即以马克思主义提出的社会革命目标和共产主义理想为彼岸追求,在实践中形成的具体革命策略和本土经验。
随着无人机平台性能的提高,例如更大的有效载荷能力,更长的飞行时间,更强的空间移动性,以及更完善的电源管理,无人机被越来越多的用于遥感信息采集,交通道路监控,地震灾害救援方面。目前的无人机主要配置全向天线,全向天线各方向统一增益,覆盖范围较大。然而,全向天线由于接收来自各个方向的信号,在接收地面用户上行传输信息的过程中,会受到来自基站的严重干扰。同时无人机因为受体积、重量、功率等因素限制,不适合安装
数据库自动调参是学术界和产业界共同关注的热点。使用深度强化学习可以实现数据库的端到端的参数配置。然而,现有的数据库自动调参系统调整参数过多,且深度强化学习模型训练时间过长,这导致在调参过程中人机交互繁琐,实际应用效果欠佳。如何加快深度强化学习模型训练速度以及有效地减少需要调整的数据库参数,是一项非常有价值的工作。在数据库自动调参系统CDBTune(Cloud Database Tune)的基础上,
随着无线技术的高速发展,用网需求量的日益增加,WIFI网络环境与信息传输场景也越来越复杂,也因此存在不稳定性和随机性高等特点。家庭WIFI网络作为无线WIFI网络的一大应用场景,通信过程中容易出现冲突干扰,信号衰减等多种破坏传输的情况,这些都会导致传输效率低下,出现网络拥塞,丢包以及包损坏等问题。正是因为这些潜在的拥塞情况,我们需要对存在冲突的家庭WIFI网络进行优化。由于我们无法对每一个家庭网络
SOTER数据库是有效利用土壤资源的重要工具,SOTER的广泛应用对促进我国土壤数据库建设的规范化与标准化方面起到了积极地推动作用。本文以湖北省宜都市红花套镇典型丘陵山地区为实验样区,以地理信息系统(GIS)为技术支撑,参考小比例尺SOTER单元的划分标准和规范,建立大比例尺SOTER单元划分标准。1.在数字高程模型(DEM)基础上生成高程图、坡度图、地势强度图及地表切割程度图,参考聚类分析的结果
随着国民经济水平和科技的不断发展,冶金产品需求不断增加。受国际社会疫情、芯片短缺和全球经济复苏等大环境影响,冶金行业面临着前所未有的挑战和机遇,也要面对激烈的市场竞争压力,在种种压力下如何实现安全生产直接影响到企业的生存和可持续发展。目前我国冶金行业中很多小企业的安全生产应急管理能力还处于较低水平,应急管理体系的构建还存在着不完善、不科学等问题,专职消防队伍建设、相关人员素质培养和专业知识能
期刊