【摘 要】
:
目标检测旨在完成图像或视频中目标的定位和目标类别的识别。随着深度学习方法在目标识别任务上分类精度的提升,快速的目标建议窗口生成方法吸引了很多学者的注意。相对于平滑窗方法生成的数百万级别的目标候选窗口,目标检测器只需在少数量的目标建议窗口集合中定位目标,从而可以显著地降低检测器的计算复杂性。但是目标建议窗口生成方法通常存在召回率低和运行速度慢等问题,从而导致这些方法的应用受到很大局限。相比之下,人类
【基金项目】
:
国家自然科学国家自然科学基金; 国家自然科学基金项目; 国家自然科学青年基金; 国家自然科学青年基金项目;
论文部分内容阅读
目标检测旨在完成图像或视频中目标的定位和目标类别的识别。随着深度学习方法在目标识别任务上分类精度的提升,快速的目标建议窗口生成方法吸引了很多学者的注意。相对于平滑窗方法生成的数百万级别的目标候选窗口,目标检测器只需在少数量的目标建议窗口集合中定位目标,从而可以显著地降低检测器的计算复杂性。但是目标建议窗口生成方法通常存在召回率低和运行速度慢等问题,从而导致这些方法的应用受到很大局限。相比之下,人类视觉系统可以快速地定位到各种目标,比如显著目标、美感区域、一般物体等目标。因此,在借鉴人类视觉系统的目标定位机制基础上,构建快速的目标建议窗口生成方法、检测特定目标和一些主观目标,可以极大地推动目标检测和其他计算机视觉任务的发展。本文深度剖析目标检测任务中存在的几个重要且具有代表性的问题(包括目标检测计算复杂度大、视频中目标召回率低、小尺寸目标和主观目标难检测等问题)。针对这些问题,本文提出了几种新的解决方法并应用于目标检测、目标跟踪、显著性检测、美感区域检测和人脸检测等领域。本文的主要工作和贡献包括:(1)提出一种基于图像区域内聚度的目标定位方法。所提出的目标定位方法利用谱聚类对图像进行分割,并把不同的分割区域作为目标建议窗口。本文在深入研究了谱聚类方法中的一些传统相似性矩阵后,提出了一个鲁棒于光照的相似性矩阵构建方法。通过在小窗口内而不是整个图像范围内定义一个鲁棒于光照变化的像素相似性度量方法,以提高两两像素之间的相似性度量的准确度。然后,当把基于该相似性度量所产生的相似性矩阵用于谱聚类时,有着相同颜色并且空域上相邻近的像素会被有效地聚集在一起。本文在理论上推导出相似性矩阵的特征值可以作为聚类的内聚测度。相似矩阵的每个特征向量则对应图像中不同的目标区域。通过利用所提出的相似性矩阵的特征值和特征向量,可以快速地生成少量、高召回率目标建议窗口,使得目标建议窗口内尽可能地包含要检测的目标。此外,所提出的基于图像区域内聚测度的目标定位方法还被应用于显著性检测。(2)针对视频中的特定目标,提出了一种有效的特定目标建议窗口生成方法。所提出的方法采用两个重要的似物性线索(既颜色和边缘)来生成目标建议窗口。由于颜色和边缘是两个互补的似物性线索,所提出的特定目标建议窗口生成方法的召回率高。此外,本文还提出一个根据目标建议窗口和被跟踪目标之间的尺寸、颜色、形状的三者组合相似度的建议窗口排序策略。该排序策略使得最终的目标建议窗口的召回精度得到进一步提高。实验结果显示:在几个主流的目标跟踪数据集上,所提出的特定目标建议窗口方法获得的召回率比最新的目标建议窗口生成方法获得的召回率高出约20%-60%。为了验证本文所提出的特定目标建议窗口生成方法,本文把所提方法应用于目标跟踪任务里,并提出了一个相应的目标跟踪方法。实验结果显示本文所提出的跟踪方法获得的跟踪精度比2015年视频跟踪竞赛冠军的MDNet跟踪方法所获得的跟踪精度还要高出约3%-11%。(3)提出一种高效的美感区域检测方法。美感区域检测又称自动图像美感区域裁剪。让计算机模仿专业摄影师裁剪出美感图像区域是一项比较主观且十分困难的任务。其中制约图像自动裁剪性能的一个关键问题是缺少大量专业摄影师标注的训练样本。本文提出了一个两步学习策略来解决样本不足的问题。首先使用一个二分类卷积神经网络模型在大规模美感数据集上进行预训练。训练的卷积神经网络模型被用于提取图像区域的美感特征。基于这些美感特征,本文提出了一个收敛速度快且泛化性能好的级联回归模型,用于回归专业摄影师裁剪的图像区域。实验结果显示本文提出的方法明显优于其它现有图像裁剪方法。(4)提出一种基于卷积神经网络的快速人脸检测方法。当前的基于卷积神经网络的人脸检测方法大多是基于图像金字塔来提取多尺度特征。然而,这种策略会增加人脸检测的计算复杂性。此外,这些方法因受限于其所采用的目标建议窗口生成方法而无法有效地定位小目标。本文提出了一种基于判别完备特征图的快速人脸检测方法。判别完备特征具有一定的尺度不变性。根据所提方法,人脸检测可以直接在判别完备特征图上执行。因此,本文所提出的人脸检测方法避免了传统方法中采用的图像金字塔策略,这可以提高人脸检测的效率。实验在几个主流的人脸检测数据集上展示了本文提出的人脸检测方法的运行效率和有效性。
其他文献
在很多应用场景中,无线传感器网络监测目标的相关信息需要不断地从网络中的源节点发送给汇聚节点,并且需要在网络中保持匿名,以达到网络安全和监测目标安全的目的。因此,源节点位置隐私保护是无线传感器网络领域中的一个重要研究课题,基于不同的敌手攻击模型,研究人员已经设计了多种源节点隐私保护方案。为了进一步提高源节点隐私保护效果并降低网络能量消耗,在本文中,我们提出了基于秘密共享的全方位源节点隐私保护方案(S
随着数字多媒体技术的发展,各种视频处理工具日渐普及。借助于这些视频处理工具,人们可以很方便地对视频进行编辑或对视频内容进行篡改,如果这种被篡改的视频被非法使用,其后果甚至会影响社会稳定。因此,如何对数字视频进行真实性和完整性的鉴定,已经成为当前多媒体信息安全领域中极为重要的研究课题之一。与数字图像相比,数字视频数据的海量、高维、非线性等特点给视频篡改取证技术研究带来更大的挑战。尽管国内外已有不少学
人体行为识别是指根据给定视频,利用机器学习和计算机视觉中各种方法自动分析视频中人的行为动作类别。行为识别容易受视频复杂背景、光照变化、行为人完成动作的速度、视角变化和部分遮挡等因素的影响,导致行为动作的类间与类内的模式变化大,使得人体行为识别成为目标识别中的难题,也是当前计算机视觉领域中的研究热点。人体行为识别的研究成果可以应用于智能视频监控、视频检索、人机交互等领域。因此,开展视频中人体行为识别
人体行为识别是计算机视觉的前沿研究课题,可应用在智能视频监控、人体行为分析和视频检索等领域中。近年来RGBD视频的出现为人体行为识别带来了新的机遇和挑战。在系统梳理RGBD视频的人体行为识别技术基础上,本文发现目前的研究存在如下问题:特征维度高、缺乏判别力部位分析、深度学习网络缺乏可解释性、特征融合难。因此本文分别针对上述问题,围绕着如何有效表示人体的动作特征展开研究,具体的研究内容和创新点如下:
ZnO基半导体作为当今光电子材料领域最为热门的材料之一,其高质量晶体生长与掺杂仍然是当今研究的热点问题,通过Mg原子的掺入可以使其能带连续可调,推动ZnO基材料在紫外与深紫外应用的进一步发展。同时,多元素的共同掺杂也成为制备p型ZnO的热门方向。随着人们对光电器件和电子器件的尺寸和性能要求的日益提高,界面处的耦合作用也成为了提高器件性能的关键物理问题。本论文采用MBE方法在立方结构的MgO衬底上分
当前,数据安全问题仍是制约云存储市场发展的重要因素。在公有云中,用户数据存储于不受信的云服务提供商的服务器,并在开放的互联网中传输,这对用户数据的安全保护和共享提出了严峻的挑战。本文首先介绍了云存储安全的基础知识和相关理论,对椭圆曲线和困难性问题作了概述,讨论了安全协议的形式化定义和理论模型。随后具体研究公有云环境下的双因子身份认证方法,讨论了基于USB Token的认证方法的特点,具体介绍了利用
Si基高效发光器件是目前Si基光电集成回路最具有挑战的器件之一。Ge由于具有准直接带特性、高载流子迁移率、在1.55μm附近有高的光吸收系数及与Si工艺相兼容等优势,被认为是理想的Si基光源候选材料之一。基于张应变及n型掺杂两种手段,Si基Ge材料的发光效率能大大提高。本文围绕Si基Ge材料制备、器件结构设计及器件制备开展了相关工作,其主要内容及创新如下:1.基于费米-狄拉克载流子分布模型和Van
现实生活中的优化问题大多都有两个或两个以上的目标,此类问题被统称为多目标优化问题。经过二十多年的发展,多目标进化算法是目前最为流行的解决多目标优化问题的方法之一。本文围绕多目标进化算法在低维(2或3)目标空间和高维(3个以上)目标空间下的不同技术难点展开相关的讨论和研究,并提出了三种分别适用于低维目标空间、高维目标空间以及能同时适用于低维和高维目标空间的新的多目标进化算法。本文的主要研究工作概括如
红树林生态系统是世界上生物多样性最为丰富的生态系统之一,对海岸带及其邻近区域的稳定性有着重要的作用。近年来,随着海岸带人口的不断增加以及城市化的飞速发展,如何合理有效地保护面临威胁的红树林成为了新形势下急需解决的问题之一。镉(cadmium,Cd)是红树林生态系统中常见的重金属污染物,直接或间接地影响着红树植物正常的生理生化过程。与此同时,红树林具有较高的生产力,周转率,以及陆海生态系统间的交换率
为了解决冶金法制备太阳能级多晶硅中除硼、磷及金属杂质的关键性问题,本论文基于熔剂精炼技术强化造渣精炼去除工业硅中关键性杂质,并通过湿法分离技术回收低杂质含量的精炼硅。主要开展了以下四方面的工作:首先,研究了工业硅中杂质相在不同浸出剂中的浸出规律,讨论了工业硅在HF+H2O2浸出剂中的浸出动力学,并对浸出剂腐蚀硅的机理进行了研究并提出了抗腐蚀措施;其次,通过相重构技术,重点研究了 Si-Al-Ca熔