面向精细视觉理解的深度渐进学习研究

来源 :上海交通大学 | 被引量 : 1次 | 上传用户:ceylong2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着视频监控网络的大规模建设和移动终端设备的加速普及,图像和视频数据呈现爆炸式增长。由于分析技术的缺乏,大量视觉数据成为“沉睡”在存储系统中的无用垃圾数据。为提高海量图像和视频的有用性,迫切需要研究图像与视频数据自动化分析与理解技术。自2012年以来深度学习极大推动了计算机视觉的发展,让许多视觉技术逐渐走向应用。然而现有方法往往只能针对简单化、低层次的视觉理解任务取得较好的效果,这极大限制了计算机视觉的进一步发展和应用。本文面向视频和图像分析需求,提出渐进学习的思想,重点探讨如何实现更高层次、更精细的视觉内容理解。从研究内容角度,本文关注更加精细的视觉理解任务,包括实例级别理解(instance-level understanding)、细粒度类别理解(fine-grained categorization)以及像素级别理解(pixel-level understanding)。从研究方法角度,本文提出渐进学习的思想,将单一模型难以捕获的细节内容和精细语义信息拆分到多个渐进阶段,并基于该思想提出一系列渐进模型以适应不同级别的精细视觉理解任务。本文的主要工作与创新如下:(1)本文提出了一套全新的深度学习框架,即深度渐进学习。为解决传统的单阶段深度学习框架无法有效关注物体细节特征的问题,所提出的深度渐进学习框架将任务拆分到多个渐进阶段,并在每一个阶段对数据的细节特征进行精细建模。本文定义了深度渐进学习的三个重要特征,即可配置性、伸缩性与精细性,基于以上三条特征,本文设计了一套完整的深度渐进学习研究框架,并将其应用到一系列的计算机视觉任务中。结果表明,所提出的深度渐进学习框架能够广泛适用于多类计算机视觉任务中,并超越了传统深度模型的性能。(2)时序渐进学习与行人重识别:对于出现在视频中的行人实例对象,单一视频帧仅能包含有限的身份信息,如何有效提取并融合不同视频帧中的有效信息是行人重识别任务中的核心问题。现有方法往往无法有效利用视频序列中的时序信息,本文从时间序列信息融合的角度,提出一种时序渐进学习模型。针对任务中如何有效整合时序特征的问题,本文提出一种基于长短时记忆网络的特征融合模型(RFA-Net)。在每个时间节点,特征融合网络接受该时刻的行人特征作为输入,并沿着时间轴将有用的特征逐步聚合为有很强区分性的序列化表达。本文在三个公开数据集上验证模型的有效性,结果表明,RFA-Net无论是使用传统人工设计的特征作为输入,还是使用卷积网络学习得到的特征作为输入,所提出的模型都能取得比传统融合方法更优的效果。(3)空间渐进学习与细粒度识别:细粒度图像识别的挑战性在于类内差异大而类间相似度高,如何有效查找和比较细粒度类别之间的细节差异是该任务的核心挑战。基于整体的深度学习模型往往无法有效关注到物体的细节特征,为了更好地解决物体的细节特征挖掘与融合问题,本文提出空间渐进思路。所提出的空间渐进模型使用物体属性信息作为监督信号,并使用循环注意力网络按照空间顺序依次关注物体的不同部位及空间尺度,同时使用一个长短时记忆网络(LSTM)将物体不同空间区域的细节特征进行融合,从而得到更具有区分性的图像特征。(4)交互渐进学习与行为预测:在细粒度图像识别的基础上,本文研究一类更具挑战性的细粒度识别任务,即细粒度交互行为预测任务。该任务的核心挑战在于如何对个体间的交互行为进行有效建模,同时找到场景中最具判别性的区域以区分细粒度的动作类别。为了解决以上两个问题,本文提出了一种渐进式的模型对交互动作进行预测。该模型具体分为三个阶段,即整体阶段、个体阶段以及交互信息耦合阶段,分别关注全局信息、个体信息以及交互关系,来对交互个体进行建模。模型同时提出了一种基于相互注意力机制,对场景中的判别性区域进行查找,从而提升模型的表达能力。所提出的模型能无缝嵌入经典的动作识别框架,实现端到端的学习。(5)模态渐进学习与视频生成:视频生成是一类更加精细的视觉理解任务,该任务要求对视觉信号进行像素级别的理解,其挑战在于如何在巨大的视频空间找到合理的数据分布。传统的视频生成算法对前景物体的结构缺乏有效约束,从而造成生成视频出现形变、模糊等现象。本文提出一种模态渐进模型以改善视频生成效果,所提出的模型使用物体的关键点作为结构模态表示,通过降低搜索空间的维度达到降低任务难度的效果;同时提出一种从低维结构空间到高维视频空间的映射模型改善生成视频质量。实验结果表明,所提出的模态渐进模型能够大幅改善视频生成的效果。综上所述,本文面向不同层次的精细视觉理解任务,提出适合不同任务的深度渐进模型。针对实例级别的行人重识别任务,本文提出时序渐进模型。针对图像和视频的细粒度类别理解任务,本文分别提出空间渐进模型和交互渐进模型。针对像素级别的视频生成任务,本文提出模态渐进模型。大量的实验结果和广泛的理论分析表明,本文所提出的渐进学习方法在不同级别的精细视觉理解任务中都存在优越性。
其他文献
本文,我们研究与量子物理、量子信息相关的算子函数和算子不等式理论等相关问题.我们讨论多元正则算子函数的广义透视映射的相关性质,Lieb-Ruskai凸性定理,一类新的算子凸(凹)函数及其Frechet微分映射,Peierls-Bogolyubov不等式以及算子平均不等式.我们的主要内容如下:第1章,简述了相关课题的研究背景,包括:基本概念,基本的算子理论、量子摘不等式以及矩阵凸凹性定理的研究历史.
全光纤锁模激光器作为一种产生高性能飞秒脉冲的理想光源,具有效率高、成本低、稳定性好、体积小、易集成等优点,一直都是锁模激光器领域的研究热点,已经被成功应用于超快光谱学、激光操控的化学反应、生物医学成像、频率计量、光通信及材料加工等领域。经过几十年的飞速发展,锁模激光器性能得到了大幅度提升。如何获得更短的脉冲、更高的脉冲能量、更高的峰值功率依然是未来的研究重点。本文的主要工作围绕全光纤锁模激光器展开
随着能源需求的不断增加,恶劣海况下的深水油气资源开发已经成为目前能源开采利用的发展趋势。为满足深海开采的要求,众多新型深水海洋结构物,如立柱式平台(Spar platform,简称Spar),张力腿平台(Tension Leg Platform,简称TLP),浮式生产储卸装置(Floating Production Storage and Offloading,简称FPSO)等,随着油气资源开采深
首先,我们提出了一种基于广义多项式混沌(gPC)的随机伽辽金方法(SG)用于计算具有随机和奇异系数的双曲方程。由于解的奇异性,标准gPC-SG方法收敛速度会很慢甚至不收敛。通过利用中心型有限差分或有限体积方法的离散解在空间和时间上较为光滑的特性,我们先离散原方程,然后再使用gPC-SG近似离散的系统。间断处的界面条件使用[1,2]中的方法处理,这样整个方法具有很快的收敛速度,对于固定的网格大小和时
强各向异性对流扩散方程在多孔介质的输运、聚变等离子体中的热传导、大气和海洋的流动等有着重要的应用。本论文主要研究含有Neumann边界条件、含有闭合磁场、含有间断、扩散项消失的强各向异性扩散方程的一致收敛阶格式。在磁化等离子体中,磁力线周围的粒子受到磁场的约束,平行和垂直磁场方向的导热强度系数比值可以达到1012。当边界条件是周期边界条件或者Neumann边界条件时,强各向异性的扩散导致极限情形下
分布式系统广泛存在于现代工业的各个领域,包括石油化工、生产制造、交通运输、航空航天等,它具有系统结构灵活、计算负载低、易于安装维护、支持信息共享与远程通信等优点,在学术界与工业界受到了人们的青睐。分布式模型预测控制作为解决大规模复杂分布式系统优化控制问题的关键方法,可有效处理多变量、多约束优化控制问题,成为分布式控制系统领域研究的重点。在实际大规模复杂系统的生产过程中,受外部环境及生产条件的影响,
本文主要研究几类非局部的和经典的非线性Schr(?)dinger(NLS)型可积系统,求得这几类非线性方程的不同类型的解,包括孤子解、呼吸子解、怪波解和周期解,并研究了不同孤子解之间的相互作用及其随着时间t的演变性质。本文前两部分研究非局部NLS型系统。2013年,Ablowitz和Musslimani[Phys.Rev.Lett.110(2013),064105]给出了一个新的非线性可积方程iq
基本进程代数是进程重写系统中基础的顺序进程。相比有限状态系统,它引入了无限状态;相比于基本并行进程,它是顺序执行,控制能力较强;相比于下推自动机,它可以被理解为一种简单的单状态下推自动机。即使基本进程代数的定义和计算结构十分简洁,该模型也有着一定的表达能力和广泛的应用。从语法的角度看,该系统定义的语法对应的语言和下推自动机能接受的语言一致。从计算模型的角度看,该系统也能模拟很多比有限状态机复杂的顺
蛋白质结构预测是从氨基酸序列预测蛋白质的三维结构,它是生物信息学和理论化学中最重要的目标之一。在医学和生物技术领域中,蛋白质结构预测也是非常重要的,可用于新药物的设计研究和新颖的酶的设计等,降低实验成本并提高药物制备的有效性。蛋白质属性信息是蛋白质结构预测方法中至关重要的因素,如残基的疏水性和亲水性、静电相互作用、氢和共价键、范德华相互作用、键角强度、焓和熵,可通过这些属性信息将蛋白质结构表述成势
Motivated by the applications in management of the Big Data era,this thesis considers two classes of problems:Composite Optimization with Composite Cone-constraints(COCC)and NonConvex and Nonsmooth Op
学位