【摘 要】
:
图像描述是计算机自动理解图像内容后,用准确、连贯的一句话对图像内容进行描述的一项计算机视觉任务。近年来,基于编码器—解码器的图像描述方法先利用编码模型充分挖掘图像的视觉特征,再使用解码模型生成语句,性能表现突出,已成为该领域的主流方法。在此基础上,越来越多的研究将注意力机制引入解码模型的设计中,从视觉或语义信息中提取关键信息用于提高图像描述的性能。然而,现有研究将视觉或语义注意力元素统一地对待,忽
论文部分内容阅读
图像描述是计算机自动理解图像内容后,用准确、连贯的一句话对图像内容进行描述的一项计算机视觉任务。近年来,基于编码器—解码器的图像描述方法先利用编码模型充分挖掘图像的视觉特征,再使用解码模型生成语句,性能表现突出,已成为该领域的主流方法。在此基础上,越来越多的研究将注意力机制引入解码模型的设计中,从视觉或语义信息中提取关键信息用于提高图像描述的性能。然而,现有研究将视觉或语义注意力元素统一地对待,忽视了注意力元素细粒度的划分,造成了图像细节信息的丢失。此外,现有模型忽视了视觉和语义信息之间的交互关系以及两种模态信息的内部关系。为了解决上述不足,我们提出了细粒度视觉语义信息的概念,将视觉和语义信息划分为更细的粒度,完成了如下两个研究工作:(1)为充分挖掘细粒度视觉语义信息之间的交互关系,我们提出了发散-聚合注意力模型(Divergent-convergent Attention,DCA)。DCA模型包含两个模块:发散观察模块和聚合注意力模块。首先,发散观察模块将细粒度视觉语义信息输入到模型中:一种粒度是物体检测模型提取的视觉物体特征集合,另外三种粒度分别是场景图解析器提取的三种语义成分(物体、属性和关系);其次,聚合注意力模块利用语义信息指导视觉注意力模型并利用视觉信息指导三种粒度的语义注意力模型,自适应地从细粒度视觉语义信息中选择最关键的粒度以及在该粒度下最相关的元素。在MS COCO图像描述数据集的实验结果表明:DCA模型能够有效利用细粒度视觉语义信息之间的交互关系,显著提升图像描述的性能。(2)为进一步挖掘细粒度视觉语义信息的内部关系,我们基于发散-聚合注意力模型提出了基于细粒度视觉语义内部关系挖掘的图像描述方法。在图像描述编码阶段,利用基于邻域候选框关系的物体检测编码模型挖掘邻域候选框之间的互补关系。在图像描述解码阶段,利用细粒度语义自注意力模型挖掘词语之间的上下文关系,并利用多头视觉自注意力模型从多个角度挖掘视觉物体之间的隐含关系。实验结果表明:本文提出的VSIREM图像描述方法,在编解码过程中能够有效挖掘细粒度视觉语义信息的内部关系,生成更准确的描述。本课题开展的工作,能够有效挖掘出细粒度视觉语义信息的交互关系以及内部关系,不仅能够提升图像描述方法的性能,而且能够促进跨模态交互的方法在图像描述领域的进一步拓展。
其他文献
近年来由于耐药细菌的产生和广泛传播,对人类的健康和动物疾病的防治产生巨大威胁,新型抗生素的开发愈发重要。本研究对细菌次级代谢产物进行筛选,从芽孢杆菌中分离出两种能有效拮抗耐药细菌的新型抗菌物质,对其所产抗菌物质结构进行初步鉴定并分析其生物学特性,为细菌耐药性的预防与控制领域提供一定的参考依据。本研究选取烟台近海土壤和海洋生物,通过平板培养法培养并分离其中细菌,共分离纯化得到约355株细菌,得到两株
改革开放以来,中国经济的发展日新月异而与之相伴的则是环境污染的日益严重和资源耗用枯竭。在习总书记提出:“绿水青山就是金山银山”的背景下,政府高度重视企业的节能减排和环境保护,尤其是重点对象矿业行业。为了更好地推进经济结构改革调整,十八大三中全会通过《关于全面深化改革若干重大问题的决定》中更是将环境问题作为改革的重要举措予以强调,探讨编制自然资源资产负债表,对环境问题进行专门监管。但只有从源头上解决
人类对能源需求的不断增长和现有能源资源日趋减少之间形成矛盾。能源的消耗量目前已成为衡量人民生活水平的标准。煤、石油、天然气的利用,使人类社会有了飞速的发展。但这些不可再生能源贮量有限,当代社会已开始出现“能源危机”的前兆。面对能源危机的困局,人类开展了一系列能源创新革命,广泛应用新能源、储存新能源成为近年来的研究热点。人类对可再生能源的利用,已经开始成为人类社会发展的新动力。本文重点研究太阳能跨季
在产品功能设计转向产品体验设计的浪潮下,CMF(Color、Material、Finish)设计作为关注用户日常使用过程中视觉体验和触觉体验的设计方法,其创新价值、体验价值和经济价值逐渐被人们所发现,并由此受到学术界与产业界的关注与重视。但目前CMF体验(即CMF设计所引起的用户体验)的度量研究相对较少,且大多采用定性的体验度量方法,在测量用户的情绪、主观意识等内隐层面时仍存在不足之处。本文从De
本文借助当下基因编辑技术作用在人类胚胎并建立妊娠发育的热点,探讨人类胚胎基因编辑技术的应用所带来的伦理风险:包括违背不伤害伦理原则、侵犯个体自主性、冲击社会公正以及对人格尊严的贬低等问题,对比国内外专家学者以及政府对该问题的不同态度判断可行性,并通过对汉斯·约纳斯责任伦理理论的剖析,提取核心观点,去粗取精,完善理论不足之处,从责任伦理的视角分析该技术引发问题的原因,进而尝试提出解决问题的办法。汉斯
民间借贷作为对正规金融的补充,长期且广泛地存在于人们的日常生活中,对于社会生产、经济发展等都具有重要的影响。其能弥补人们投资和中小企业融资的需求,但若操作不当,也会造成金融秩序混乱、社会情况不稳的状况。从浙江省的统计年鉴报告上可以看出,民营经济能极大促进本省经济的提升,而民间借贷又对民营经济的可持续发展有着十分重要的影响。温州市作为我国曾经民营经济发展的龙头地区,在民间借贷方面也是走在全国领先地位
化感作用指的是活体植物(供体植物)通过向周围环境中释放其自身产生的某些化学物质,导致其周围植物(受体植物)无法正常生长、发育的现象,包括水稻、小麦、玉米在内的多种农作
高效视频编码标准(HEVC)是针对视频应用的多样化和视频高清化趋势而提出的新一代视频编码标准。HEVC采用了许多新的编码技术,包括基于四叉树结构的块划分技术、更加不同的帧
旅游业在国家经济发展和国际交流交往中占据不容置疑的重要地位。入境旅游与出境旅游、国内旅游共同构成旅游业运作机制,是旅游系统发展的齿轮,在旅游发展、经济增长、文化交流等方面显著影响旅游目的地。旅游活动必然伴随旅游客流的形成,它是旅游动机的驱动结果,也是目的地的服务对象。旅游流与目的地相互联系并相互作用,其流动携带的信息流、资金流等影响着目的地旅游发展和旅游者体验,二者的关系是目的地建设的参考依据,对
当今的世界已经全面步入了信息科技时代,图像信息领域也越来越受到相关研究人员的重视,尤其是在军事、航天、医药护理等方面得到了许许多多的应用。随着近些年来Candes与Dono