基于深度学习的视觉描述技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:wangbanban
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据多媒体时代的到来,互联网、便携设备日益普及,图像作为信息的重要载体,出现在我们身边的每个角落。如何利用计算机充分获取并理解图像信息,一直以来吸引学者们的广泛关注。近年来,在人工智能、深度学习理论蓬勃发展的大背景下,计算机视觉的经典研究问题,例如图像分类、目标检测等,均取得了快速发展和巨大成功;而在自然语言处理方面,机器翻译、人机对话的相关技术也得到了显著提升。受此启发,学者们逐渐将目光转向一个更具挑战性的任务:采用自然语言的形式表现图像内容的视觉描述任务。按照输入和输出形式划分,视觉描述的研究内容包含视觉问答和图像标注两个方面。视觉问答根据图像和给定的问题推理出对应的答案;而图像标注则研究如何生成给定图像的句子描述。很显然,视觉问答是一种被动式的推理任务,需要用户提供文本信息;而图像标注则是以尽可能挖掘图像视觉内容为目的的一种主动式图像描述模型。这两个研究方向均涉及图像、文字两个不同的数据分布空间。由于二者存在巨大的语义鸿沟,难以建立直接的映射关系,而深度模型强大的特征表达能力,成为解决该难题的一个重要突破口。无论是图像还是文本,其表达的语义是多模态呈现的。图像的语义信息包括视觉元素、元素的状态属性以及他们之间的关系;而文本则是包含字、词、短语等多种层次的语义表达。通过对这些不同模态的特征进行提取、建模,我们便可以借助深度模型推理挖掘出更丰富的图像信息。随着深度学习理论在多模态任务中发挥越来越显著的作用,视觉描述上的研究范围逐渐扩大,研究层次也越来越深入。近年来,基于深度学习理论的方法将视觉问答和图像标注的研究不断推上新的高度。而与此同时,两种视觉描述任务的难点也更加显而易见。在视觉问答方面,由于模型需要对不同类型的问题进行处理,而计数类问题的处理一直是一个具有挑战性的任务;图像标注方面,最简单的单句形式已远远不能满足复杂场景的要求,研究者们将更多的研究精力放在以段落标注为代表的多句描述上。而相对于前者,段落描述任务显然更具有挑战性。本文采用深度学习模型,对视觉描述的两大任务展开了深入研究。首先,本文分析了视觉问答模型无法准确回答计数类问题的主要原因,并提出了用于取代传统视觉问答模型中对于计数类问题处理方式的新策略。然后,在图像标注方面,本文以内容更丰富、形式更简洁的段落型文本为目标,进一步提出了高性能段落标注模型。具体的研究内容分为以下四个部分:第一,提出了一种基于区域检测的问答计数模型。传统计数方法只能计算特定目标物体的数量,无法参考用户的提问内容。而最近兴起的视觉问答任务则是将包括计数问题在内的所有类型问题当作回归问题来处理。为了解决以上两种思路对于处理问答计数任务的不足,我们提出了一种基于检测+判别的框架来确定用户所问目标的数量。在检测阶段,我们提取问题的序列化特征,并与图像特征融合来实现目标框位置的预测;在判别阶段,我们对问题纹理的多模态特征建模,与被检测区域进行匹配,并最后通过一个回归网络计算出每个区域所包含的目标数量。与传统的计数模型相比,我们融合了问题信息,可以对符合问题描述的物体精确计数;相对于广义的视觉问答模型,我们可以得出更精确的计数结果。第二,提出了一种基于生成对抗网络的问答计数模型。该模型采用定位+回归的框架策略,通过一个融合问题特征的生成对抗网络实现目标位置的确定。为了从不同粒度挖掘问题语义信息,我们在生成和判别阶段分别使用循环网络和卷积网络提取问题特征,并将这种多模态的问题文本表达与图像特征相融合,用于目标位置的预测。目标的最后数量是通过对所有被检测区域的回归结果加和求得。实验结果表明,生成对抗网络的引入获得了更好的目标定位效果,并有效的去除了冗余区域,从而改善了目标数量的预测精度。第三,提出了一种基于关系预测的图像段落标注模型。传统的图像标注模型通常是使用一个卷积网络提取图像特征,使用一个循环网络生成句子。这种模型架构可以对简单的图像场景生成描述,而无法对复杂的视觉场景进行精细化表述。解决该问题的一种思路是对整张图片的关键区域进行检测,并生成区域级的段落型文字描述。而这种方法无法有效的复现视觉元素之间的关系,导致视觉信息的大量丢失。针对该问题,本文提出了一种基于关系预测的图像段落标注网络。与传统的段落标注模型相比,本文显式的预测了视觉元素之间可能存在的关系语义,并通过注意力机制,将图像特征和关系语义特征进行融合,并使用融合后的特征生成段落型描述文字。实验结果表明我们通过融合视觉关系语义可以获得更精确、更丰富的段落内容,相对于传统的段落描述模型,我们所提出的方法包含了更多的视觉关系信息。第四,提出了一种基于生成对抗网络的段落标注方法。经过证明,提高关键区域和视觉关系的预测精度,可以提高段落标注的效果。目前生成图像段落标注的网络均沿用目标检测模型中的区域提名网络确定图像的关键区域,并根据对应关键区域的特征生成文本。这种机制决定了区域定位的准确度会直接对文本生成的效果产生影响。在实验中我们发现,与目标检测模型的最终目的不同,在段落标注模型中,关键区域包含的视觉关系越多,对应生成的描述性文字质量越好。以此为出发点,我们设计了一个生成对抗网络,用于产生包含更多视觉关系的关键区域。我们将产生关键区域的模块设计成生成器网络的结构,判别器网络用于生成器网络参数的优化。生成器和判别器的交替优化可以使关键区域包含更多的视觉元素以及视觉关系信息。实验结果表明,本文设计的这种基于生成对抗模型的区域提名网络可以有效提高视觉关系的预测精度,并改善了段落标注的最终生成效果。
其他文献
与固定边界的抛物型系统相比,自由边界问题更具有实际意义,这里自由边界代表物种的扩张前沿.本文首先研究几类种群模型的自由边界问题.主要关心其动力学性质:整体解的存在唯一性,正则性估计,长时间行为,蔓延和灭绝的判别准则,当蔓延发生时物种的渐近蔓延速度以及自由边界的渐近速度等.在本文的最后,研究带有季节演替现象的反应扩散竞争模型,主要探讨行波解的存在性以及种群的传播性质,并与对应的自由边界问题做对比.此
绿道作为融合健康、生态与景观的连续性开敞空间,已成为我国城乡绿色空间生态与景观结合发展重要规划手段,同时也是国土空间规划与全域旅游发展推动的有效载体之一,以休闲游憩空间建设引领区域空间绿色化发展,提供解决快速城镇化发展中的环境问题及社会矛盾途径。但目前城乡绿道建设出现发展不均衡、技术不成熟等问题,特别是环境资源较复杂的市县域地区各类资源协同机制薄弱,对区域绿道空间可持续发展形成限制。论文立足于全域
紫外激光光源在微加工、紫外医疗、光刻等领域具有重要的应用,固体激光器是当前紫外激光光源非常重要的组成部分。而紫外非线性光学晶体材料作为固体激光器的核心器件,受到广泛的关注和研究。磷酸盐因其丰富的晶体结构和优异的光学性能,是探索紫外非线性光学晶体材料的优选体系。然而紫外磷酸盐存在倍频效应和双折射率普遍较小的问题,因此为了增强其倍频效应和双折射率,本文将不同的原子与碱金属磷酸盐复合,合成了多种新型紫外
近年来,随着可穿戴电子产品的智能化、便携化和多功能化发展,对柔性能源存储设备提出了新的要求与挑战。柔性超级电容器因其装配简单,操作安全,环境友好等优点,引起了研究人员的广泛关注。如何通过有效的结构设计制备高界面稳定性和良好兼容性的柔性电极和凝胶电解质来满足柔性器件在不同形变条件下稳定的能量输出是目前亟待解决的问题。相比于其他的柔性电极,织物基电极因其独特的物理化学性质,可以最大程度的释放连续形变过
在我国极端环境工程需求日益增长的情况下,以及“一带一路”等国家战略中许多重要工程将会跨越若干个冬季施工期的背景下,保障混凝土工程在寒冷环境下安全可靠、提高冬期施工的关键技术及理论基础愈加重要。水泥的早期水化硬化是保证冬期施工混凝土性能及质量的关键影响因素,如何在负温下促进水泥快速水化、保证强度持续发展、并避免冻害发生是需要攻克的难点。通常会采取保温蓄热养护方法,然而这类方法不仅会消耗大量的人力物力
由于具有绿色、环保和节省资源等优势,自修复智能材料受到了研究者们的广泛关注。随着研究的深入,人们发现一些因素制约着自修复材料的发展,如较好自修复能力与强机械性能难以同时实现以及自修复材料制备效率低等难题。目前,人工材料的自修复能力还难与自然界生物体相媲美,而复杂的制备过程也进一步阻碍了自修复材料的实际应用。本论文利用模拟人体表皮结构的仿生设计,实现了自修复性能与高模量/高硬度的有效结合,完成了类表
大分子自组装是构筑功能化微纳米材料的重要手段之一,基于大分子自组装制备的材料已经被证实在药物载体、微纳马达、光电材料、微电子器材等方面具有广泛的应用前景。目前大分子自组装的研究对象集中在线性嵌段共聚物和支化嵌段共聚物上。事实上,广泛的氢键作用、分子内易引入功能化单体、结构单元交替链接和超强的结晶性等特征使得聚酰胺有望成为一种非常有潜力的自组装基元。然而迄今为止,关于聚酰胺自组装的研究报道还非常少。
煤热解废水中含有多种有毒难生物降解有机化合物,其中含氮杂环化合物(Nitrogen heterocyclic compounds,NHCs)是煤热解废水中典型的高浓度、高毒性的有机污染物,对污泥微生物的生长代谢具有明显的生物毒性抑制作用,严重影响煤热解废水生化处理单元的处理效果和稳定性。在处理高浓度有毒难降解有机化合物方面,厌氧工艺有着独特的优势。寻求高效可行的强化厌氧技术实现NHCs的有效去除,