协同常规-特定语义的多特征图像字幕生成

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:li81641143
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网带宽的大幅增加和各种移动设备的激增,Web2.0技术下图像数据已经出现爆炸性的生成,发布和传播,成为当今大数据不可或缺的一部分。然而互联网上的部分图像是无标记的,为了更有效地存储、管理、检索和利用这些数据,近年来,研究人员致力于用完整的自然语句自动描述图像的内容,即为图像字幕生成。然而,图像字幕生成是一个非常具有挑战性的任务,它不仅需要利用模型去捕获图像中呈现的对象或者场景,表达图像中对象和场景的相关性,而且还要用恰当的自然语言来描述它们。针对上述问题,本文利用深度学习方法对图像字幕生成进行了较为系统深入的研究,主要的研究成果如下:(1)提出了一种基于长短时记忆网络(Long Short Term Memory,LSTM)的从多特征序列到语句序列的图像字幕生成框架。为了更全面的描述图像特征,此方法提出分别使用基于ImageNet ILSVRC图像分类数据集训练的ResNet152提取图像中目标特征,使用基于Places365场景数据库训练的ResNet152提取图像中的场景上下文特征,利用二者的互补性全面描述目标和场景上下文特征。为了充分利用图像字幕描述时的常规语义信息,本文使用基于MSCOCO数据库训练的多实例属性分类器提取图像的视觉语义特征,作为图像视觉特征在语义先验上的补充。本文将图像的目标特征、场景上下文特征和图像的视觉语义特征序列输入到LSTM编码器,完成图像的特征表达。最后,通过LSTM解码器将该特征翻译成语言描述,基于交叉熵损失函数实现从多特征序列到自然语言序列的图像字幕生成框架的训练。本文在MSCOCO数据库上对模型进行了实验评估,对比实验结果证明相比经典方法在多个指标上均有优势。(2)提出了一种协同常规-特定语义的多特征图像字幕生成方法。为更好的表示图像的语义特征,本文提出在MSCOCO数据库上训练多实例属性分类器提取图像的常规语义属性,同时对测试图像在视觉语义嵌入空间检索其相近语义作为图像的特定语义属性,协同图像的常规和特定语义属性,作为图像的语义先验,并将其与图像的目标特征、场景上下文特征序列一起输入到LSTM编码器中作为图像的特征表示。除此之外,本文还提出在图像解码中,将特定语义作为“特定语义监督器”用于LSTM解码中候选短句之间的BLEU 4相似性监督约束,实现特定语义协同监督下的图像字幕生成。本文在MSCOCO数据库上的实验证明了协同常规和特定语义的语义属性和“特定语义监督器”的优势,同时较其它经典方法取得了更好的实验效果。
其他文献
活性氧物种是含氧的性质活泼物质的总称,主要包括过氧亚硝酸阴离子盐(ONOO-)、次溴酸(HOBr)、次氯酸(HOCl)、双氧水(H_2O_2)、超氧阴离子(O_2·-)、单线氧(1O_2)和羟基自由基(·OH)等。近期研究发现,活性氧在生物体内具有重要的作用,与细胞免疫、信号传导和分化等生命活动都有着紧密的联系。当生物体内活性氧浓度发生异常变化时,往往会对生物体造成氧化损伤。活性氧因具有高化学反应
随着绿色发展理念深入人心,绿色金融在近些年得到了不小的发展,环境投资作为绿色金融的一部分也得到了快速的发展。但在现实中由于各省市间经济发展水平,产业结构等存在较大差异,致使区域环境投资的发展也存在地区间的不平衡现象。为了论证环境投资空间分布不均衡的程度和原因,本文基于我国2007-2016年间环境投资强度、产业结构、人均收入、城镇化率、金融相关比率等数据,分别运用了描述性统计分析、空间面板模型、门
超级电容器因超长的循环寿命及快速充放电性能而备受关注。多孔碳作为超级电容器用电极材料,其形态和组分是影响双电层电容的重要因素。本论文分别以天然生物质材料及金属有机框架材料MOF制备了多孔碳及碳纳米管等不同形态的碳材料,通过调控其组份,获得了Co_3S_4/Co原位掺杂的多孔碳/CNT纳米复合电极材料。采用XRD,SEM,TEM,FT-IR,XPS,Raman等方法对其结构进行了表征,并采用蓝电电池
极化码(Polar Codes)是第一个被证明可以达到任意二进制输入离散无记忆信道(Binary-input discrete memoryless channels,B-DMC)对称容量的一种新的信道编码方案。因为它具有递归的编码结构和良好的译码效果而受到人们的广泛关注。Polar码是基于信道极化现象构造的一种信道编码方案,关于Polar码的研究主要集中在构造和译码两个方面。Polar码的构造即
文本主题聚类中,文本表示模型对信息检索、问答系统等的研究十分重要。在传统向量空间模型(VSM)的基础上,共现潜在语义向量空间模型(CLSVSM)运用共现分析理论提取、挖掘了潜在的语义信息,使文本聚类效果得到提高,但仍未充分提取。针对此问题,欲在CLSVSM的基础上,利用词语语义相似度对文本表示模型进行进一步的改进,以挖掘更多的潜在语义信息。这也就意味着提取潜在语义信息的核心步骤——词语语义相似性度
本论文基于密度泛函理论,系统地研究了杂原子掺杂缺陷石墨烯作为氧还原催化剂的反应机理。得到主要结论如下:(1)研究了氮硫共掺杂碳缺陷石墨烯在酸性介质中的催化活性,包括其活性位点,反应途径以及自由能曲线。计算发现了六种O_2吸附构型,并且吸附位点均为与掺杂剂相邻的碳原子。然而,它们在氮的邻位碳上是物理吸附,不太可能发生ORR过程。但是,当吸附位点在硫邻位碳上时,发现催化剂活性与吸附能相关:当(化学)吸
随着卫星通信技术的不断演进,得益于广泛的覆盖能力以及受地面因素影响较小的特性,可以有效弥补地面网络的不足。但是,由于卫星组网技术受限于拓扑高动态变化、长时延等问题,技术演进稍落后于地面网络。当前随着5G网络商用的逐步推进,通信业务面临多样化场景和更高的性能需求,更需要卫星网络与地面网络实现资源的高效利用和管理,提供有力的技术支撑。首先,本文针对当前天地异构网络管理架构僵化问题,提出天地异构网络组网
目的应用基于GC-MS(气相色谱质谱联用)技术的代谢组学方法,研究慢性粒细胞白血病患者血浆中内源性代谢物的变化,寻找与疾病相关的潜在标志物,并初步探讨其涉及的相关代谢通路
DVL1是Wnt信号通路中的一个重要蛋白,与胚胎生长和形态发育、肿瘤发生、社会行为和感觉门控等有关。p53是一个重要的肿瘤抑制因子,许多肿瘤的发生都与p53的表达异常或突变有
扫频光源在自然科学研究和日常生活中有着重要应用。本论文介绍了几种实现扫频光源的典型方案,并详细介绍了基于色散调谐的扫频光源的原理和实现方法,从各个方面分析了影响色