【摘 要】
:
随着计算机视觉的发展,不仅局限于让机器能完成检测、识别、分割等任务,也要求计算机能对图像的客观内容进行自动描述。和图像分类或者目标检测任务不同,图像自动描述要对图片中重要的场景、物体和它们之间的关系用自然语言进行整体的描述。这是计算机视觉内容理解的重要组成部分。图像自动描述方法采用编码器-解码器结构,使用卷积神经网络对图像进行编码,接着用循环神经网络进行句子的解码。然而由于图像特征的提取与嵌入,无
论文部分内容阅读
随着计算机视觉的发展,不仅局限于让机器能完成检测、识别、分割等任务,也要求计算机能对图像的客观内容进行自动描述。和图像分类或者目标检测任务不同,图像自动描述要对图片中重要的场景、物体和它们之间的关系用自然语言进行整体的描述。这是计算机视觉内容理解的重要组成部分。图像自动描述方法采用编码器-解码器结构,使用卷积神经网络对图像进行编码,接着用循环神经网络进行句子的解码。然而由于图像特征的提取与嵌入,无法显式地表示出图像的多层级的语义,一些方法提出了基于视觉概念的图像自动描述方法。然而,基于视觉概念的图像自动描述方法不能很好的表示出视觉语义的不同层次,并且只停留在物体为主的语义层面,没有涉及场景语义部分。场景语义的上下文捕捉了编码在图片中更高层的语义,例如图片被拍摄的地点和图中人物可能进行的活动,并用于影响注意力模块和文本生成。对于特定的场景类型,生成的描述的词语会有所不同。针对当前图像自动描述方法存在的上述问题,本文提出了基于多层级视觉语义嵌入的图像自动描述研究,以弥补这些缺陷。本文的主要创新点包括:1)首次考虑了多层次的视觉语义,建模了场景语义、物体语义和文本生成的关系。场景语义信息为模型提供了关于场景的上下文,引导图片描述的生成,有效地表示出视觉语义的不同层次;2)提出了一种因式分解的注意力机制模块,用于显式地嵌入场景语义信息并引导不同层级的视觉信息嵌入和文本的生成。通过使用基于场景语义信息的因式分解的注意力机制模块将图像局部抽象特征、物体语义概念和场景语义信息三种不同层级的视觉信息在不同方面进行嵌入,模型的性能得到了提升。本文在通用的图像自动描述数据集上进行了实验,通过与当前其他主流方法的比较,本文证明了:在相同条件下,本文提出的方法在各项指标上超过了当前其他图像自动描述方法。
其他文献
近年来,众多国际知名服饰品牌开始入驻和抢占国内市场,挤压了我国传统服装品牌的生存空间。怎样能在激烈的市场环境中脱颖而出,不被市场浪潮所淘汰,是本国服装品牌亟需思考的问题。不被市场抛弃、实现长久发展的前提是持续性盈利,也就是要找到适合的盈利模式。海澜之家为我国代表性男装品牌,本文旨在分析海澜之家的盈利模式,从中发现海澜之家盈利模式的优势与不足,为海澜之家盈利模式提供相应优化策略,为其他企业提供一定借
近些年来,卷积神经网络在图像识别、目标定位等计算机视觉任务中得到了广泛的应用。卷积神经网络压缩技术能够有效地降低神经网络的计算量和参数量,使计算设备能够更加流畅地运行卷积神经网络模型,减少设备能量消耗,提升用户体验。本文对卷积神经网络压缩算法的研究分为以下两个方面。在卷积神经网络神经节点裁剪方面,结合卷积层和批标准化层对神经节点输出特征图的影响,提出一种神经节点重要程度评估算法,以此对卷积层中神经
目的探讨神经导航在癫痫患者深部电极置入中的应用。方法收集36例在神经导航引导下置入深部电极的癫痫患者,观察深部电极置入的精度和并发症,同时和有框架立体定向方法比较。
唐卡图像作为西夏艺术的重要组成部分,具有特殊的史学和艺术研究价值。近年来,随着西夏学研究的不断推进,考古发掘的不断涌现,对这些年代久远,破损程度不同的唐卡文物进行的修复工作也逐渐提上日程。在当前的文物修复领域,多半以人工修复为主,而深度学习领域的不断拓展,为图像修复提供了更多的技术支撑。结合先进的深度学习技术进行唐卡图像的虚拟修复不仅能够避免直接修复可能导致的文物“二次损毁”的风险,而且能够为数字
自从2005年L.Qi和L.H.Lim分别独立地定义了超矩阵A的特征值,2012年J.Cooper与A.Dutle给出了n阶一致超图H的对称邻接超矩阵的定义,基于超矩阵对超图问题的研究成为热点.极值问题是图论中极具挑战性的一类问题,基于超矩阵的超图的极值问题引起很多学者的兴趣,相关的结果不断涌现,同时,大量的问题有待进一步的研究.基于此,本文主要研究几类给定性质的k-一致超图的谱及其极值结构.在第
近年来,世界各国越发重视双支柱政策的实施,越来越多国家将贷款价值比(LTV)作为宏观审慎政策工具配合货币政策实施,多年来不少学者进行过相应研究,并对政策配合协调的有效性以及LTV对房地产市场的调控作用给予了肯定,但关于LTV对金融资产价格影响的研究却有所缺失。本文通过构建拥有家庭、企业、金融及政府这四个部门的动态随机一般均衡(DSGE)模型,在已有的研究体系中加入金融资产(如股票、债券等)相关内容
空间目标识别,即使用雷达获得空间目标的回波信号后,从中提取有效特征,通过分类器确定空间目标的类别属性。随着空间的战略地位日益突出,探测和识别空间目标对于空间监测系统
甲基苯丙胺以及金属离子的检测是一个非常有意义的课题。经过多年的研究和探索,特殊润湿性表面的生物化学传感器得到了长足的发展。在检测领域呈现出广泛的应用前景,检测灵敏度也得到了显著提高。而本文则致力于开发一种新型传感器——反应润湿性传感器,其原理是基于检测物与传感器的反应引起表面润湿性变化来作为传感信号进行分析检测,主要内容如下:1.将甲基苯丙胺适配体化学沉积在玻璃基底上,并对其进行疏水化处理。以此来
人工智能技术与司法领域的深度融合,使得司法智能化得到了不断的发展。司法智能不仅能辅助司法从业人员提升其工作效率,而且能更好地服务于大众,并推进司法便民化。类案推荐作为司法智能化的主要基础任务之一,其能够在一定程度上辅助量刑决策、规范裁判标准。随着大数据时代的到来,法律数据也越来越公开化、透明化,构建一个法律类案推荐服务平台,能够进一步推进司法智能化和便民化。本文结合了自然语言处理技术、推荐策略以及
6061铝合金作为Al-Mg-Si系铝合金中最重要的合金之一,被广泛应用于机械零件、结构工程、现代建筑、交通运输等领域。工业用6061铝合金在一些特殊领域的运用还受限于其本身的