基于上下文的场景图生成

来源 :苏州大学 | 被引量 : 0次 | 上传用户:tianzhizui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
场景图生成任务是近年来兴起的一项计算机视觉新任务。作为图像中各目标之间复杂关系的抽象,场景图提供图像中的结构化信息,可以广泛应用到高层视觉任务,如看图说话、视觉问答、图像检索以及图像生成等领域。场景中的上下文指的是场景中存在的交互信息。本文针对场景图目标上下文和边上下文的建模问题分别从局部上下文生成、全局上下文生成以及多角度全局上下文信息融合三个方面展开深入研究。主要研究工作如下:(1)为了解决视觉关系的视觉表示多样性问题,增强场景图生成中视觉原始特征的信息,鉴于局部上下文能进一步抽象场景中目标或局部区域的信息,增强视觉理解中场景感知和目标识别的特点,论文提出了基于注意力的局部上下文场景图生成(Node-relation)方法。该方法利用注意力机制改变传统的消息传递方式,节点消息计算对出入度边(主-谓和宾-谓隐藏向量)进行注意力加权,边消息计算中动态引导二维主宾视觉特征的注意力分布并求取主宾加权和,形成局部上下文消息,最终生成场景图。在Visual Genome数据集上的实验说明,Node-relation方法较好地利用局部上下文信息有效区分外观相似目标,改善目标的视觉表示,生成更精准的场景图。(2)为了改善场景图生成受数据集偏置的影响,基于全局上下文信息可以较好地利用场景中的全局信息进行联合推理以及人类大脑在构造场景图对全局上下文信息应用的机理,论文提出了一种基于残差置乱全局上下文的场景图生成(Residual Shuffle Sequence,RSSQ)方法。该方法重点在于提出了一种残差置乱biLSTM(bi-directional LSTM)架构。通过置乱操作缓解数据集偏置的影响,通过残差连接实现不同层次的全局边上下文共享。此外通过显式的位置编码补充相对位置上下文信息。通过实验说明,RSSQ方法在VG数据集的高、中频段均能生成较为理想的场景图。(3)为了充分利用不同角度全局上下文信息对场景结构主题表示的优势,基于人脑对场景内容理解是多角度和多层次的综合表达机理,论文提出了一个基于模块注意力融合的全局上下文场景图生成(Module-att)方法。该方法通过设计一个低代价的模块注意力网络,对残差置乱的链式结构上下文、多头自注意力的全连接上下文和相对位置上下文进行注意力融合,形成多角度融合的全局上下文。消融实验和对比实验说明,Module-att方法可以融合不同侧重点的视觉场景结构主题信息,改善视觉关系上下文的表示,同时缓解数据集偏置,有效地提升在VG数据集上的场景图生成性能。总之,经过视觉局部、全局以及多角度全局上下文的研究,场景图生成在视觉多样性表达、数据集偏置、多角度场景结构主题信息三个方面取得了相应进展,并在VG数据集上说明了提出方法的可行性、可靠性和优越性。
其他文献
目的:采用额尔敦–乌日勒治疗局灶性脑缺血模型大鼠的研究方法,进一步阐明额尔敦–乌日勒治疗缺血性脑卒中的机制,从而更好地指导临床,能够为缺血性脑卒中的防治提供安全有效、简便、易行、医疗费用低廉、应用性广泛的治疗方法,能够为个人、家庭、社会减轻经济负担,带来社会效益。方法:SPF级SD雄性大鼠、体重280±20g、共200只。适应性饲养7天后按体重随机分5组,正常组24只大鼠,其余采用Zea-Long
本研究目的是了解中国青年田径运动员在国际赛场上的竞技实力及表现情况,鉴于目前国内对青少年田径赛事相关研究较少,本文对世界田联举办的世界青年田径锦标赛中国的竞技实力
电力是全球最重要的二次能源,在发电行业中汽轮机的地位是举足轻重的,所以如何才能保证汽轮机高效并安全运行是十分重要的课题。对全国的发电产业来说,效率每提高1%就是一大进步,对整个国家的经济发展有巨大贡献。但汽轮机内部流动中湿蒸汽的存在,制约了经济的发展,并且对运行的安全性有很大的威胁,尤其当工质中含有CO_2时更会加快叶片腐蚀速率。其中CO_2的分压、工质所处的温度、混合工质的流速,以及CO_2在初
随着高速铁路快速发展,高速列车轻量化成为了重要的发展方向。车载电力电子变压器由于其体积小、重量轻等优势,是广大学者的研究重点。本文所研究的单相级联整流器是电力电子变压器的重要组成部分,其稳定运行对电力电子变压器正常工作起至关重要的作用。首先,本文对单相二极管钳位级联整流器拓扑结构、工作原理、数学模型进行了详细分析;通过对瞬态直接电流控制策略进行深入研究,设计了单相二极管钳位级联整流器整体控制策略;
近年来随着平板显示技术的快速发展,对平板显示用材料也提出了更高的要求。非晶态铟镓锌(IGZO)薄膜是平板显示器中薄膜晶体管的关键材料,与使用α-Si和LTPS(Low Temperature Pol
自旋是电子的内禀属性,电子的自旋极化最近在强激光场电离原子产生光电子的过程中引起重视。光电子的自旋极化现象涉及光子的自旋和电子的自旋角动量及其转化问题,是近期强激
氨基酸生产工艺发展经历了热酸水解、化学合成及酶催化和微生物发酵的过程。随着人口的增加,以及各种氨基酸功能的进一步发展,其市场需求量以每年5-7%的比例稳健增加。L-精氨酸作为人体的半必需氨基酸,在人体中参与了尿素循环、氮元素的代谢并协助氨排出;也参与体内NO合成,间接影响生命体免疫、神经和心血管系统;同时还是作为精蛋白的重要组分之一,能影响人体生殖。因此被广泛用作食品、药品等的添加剂。目前,我国市
液晶弹性体(LCE)作为一类刺激响应型材料,可以制备具有复杂的三维(3D)形状变化的材料,具有广泛的应用前景。根据LCE在外界刺激下沿着导向矢发生可逆的收缩与膨胀,垂直取向LCE薄膜
作为农业物联网(Internet of Things,IoT)的底层支撑技术,无线传感器网络(Wireless Sensor Networks,WSNs)被广泛部署在各种农业应用中,但由于WSNs在能量、计算、通信和可扩
在核动力反应堆热工水力设计中,需要使用CFD软件对堆芯内热工水力参数进行计算,而目前CFD软件中的壁面热流分配模型都是针对于常规通道建立的,且模型中使用的汽泡参数多在池