基于深度网络的视频动态目标检测算法设计

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:ygs850723
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通过视觉,人和动物感知外界物体的大小、明暗、颜色、动静,这些信息对于生物生存和发展至关重要。视觉是人和动物最重要的感觉,至少有80%以上的外界信息经视觉获得。当前,人工智能作为科学研究前沿研究方向和产业智能化的一个重点,势必会关注和挖掘视觉领域的算法和应用。当前计算机视觉信息的存储都是利用时间和空间域上的离散颜色信息,如何通过这些离散的信息,让机器可以实现类似于人的信息挖掘能力,仍是学界和业界业界的一个难点,这些研究统称为计算机视觉。计算机视觉研究的内容,按照研究对象是否包含时间信息可以分为静态图像的研究和对视频的研究;按照实现的功能可以分为分类、分割、目标检测、目标跟踪等领域。本文将重点关注视频中的目标检测。视频目标检测的主要目标是在视频中找到其中出现的目标类别及其位置。这个方法可以直接应用于生产生活的很多领域,例如安防、自动驾驶、智慧城市等,有着广阔的应用前景。与视频信息相比,视觉信息的另一个重要载体是静态图像。自2012年以来,深度卷积网络已经被广泛应用于计算机视觉领域的诸多研究方向,尤其是静态图像领域。静态图像重点目标检测已有大量深度卷积神经网络模型,取得了较好的效果。这些方法包括单阶段方法和两阶段方法等。其一般思路往往是生成大量可能存在目标的候选框,随后根据视觉特征对这些候选框进行内容分类和边框回归,两阶段方法在进行分类和回归前还会有一个候选框的初步筛选过程。人们尝试将静态图像的目标检测直接应用于视频的每一帧中,但这种方法没有利用好视频是一个空间与时间信息集合体的特征,因此容易受到遮挡、模糊以及光照条件等变化带来的准确性降低等问题。本文将在时序信息的利用上进行较为深入的研究,探索一种在保持高效率的基础上可以实现更高准确率的模型。因此,本文将以静态图像上单阶段目标检测的方法为基础,加入对时序信息的利用,来提高目标检测的精度。在视频目标检测算法方面利用一个被广泛使用的深度网络模型作为后端以提取其关键特征,选取不同层次的网络层输出进入到特征金字塔网络中提取多层次的特征来对大小不同的目标进行特征提取并充分利用不同层次直接的相互关系,并根据不同层次的网络输出构建目标框,之后将这些层次特征组合,输入到两个子网络中,同时结合时序信息,对目标框进行类别判定和边界回归微调,其中在分类判定子网络中,为了避免单阶段方法中没有对候选框进行筛选可能造成的前背景巨大不平衡问题,本文采用了焦点误差函数作为该子网络的损失函数。最终结合两个子网络的输出,经过非极大抑制,产生最终目标检测的结果。本文经过在优达城自动驾驶公开数据集上的对比实验,证明了焦点误差函数和时序信息使用的有效性。通过对比仅在单一子网络中增加卷积LSTM层,可以发现这一改动相对于不带循环经济网络单元的层影响不大,而当在两个子网络中均增加卷积LSTM结构时,目标检测的效果则有明显提升。此外,通过与焦点误差函数与传统的交叉熵函数的对比,可以发现焦点损失函数在减轻前背景巨大不平衡上起到了重要的作用。最后,本文通过实验对模型的计算时间性能进行评估,证明了模型在提升检测效果的同时,相比不带循环神经网络结构的模型,仅增加了少量的计算复杂度。
其他文献
互联网时代的到来,意味着互联网不仅仅是一种提高学习科研效率的工具,而是一种对社会形态全面的改变。互联网诞生于高校科研空间中,现在反过来推动了高校科研的发展,引领了创
寒区工程的勘察、设计与建设等过程须掌握冻土蠕变特性。其研究能准确预测冻土长期蠕变变形和强度衰减规律,用于有效地减少蠕变所带来的工程灾害。球形压痕试验有其他静力强
驯化是生物在长期的自然选择和协同进化过程中,物种间演化出的一种互利共赢的生存方式,是将自然环境下的动物或植物繁育改变为人工控制下的过程。马的驯化是一个复杂有趣的过
近年来,H5N6已逐渐取代H5N1成为我国主要流行的H5亚型高致病性禽流感病毒(avian influenza virus,AIV),且随着病毒的不断进化其基因组构成日趋复杂,部分流行株的6个内部基因
高光谱图像解混是识别高光谱图像中的地物成分以及估计地物丰度的一类重要技术。由于高光谱传感器对地物观测的空间分辨率有限,传感器只能获得不同地物反射的混合光谱图像,难
本文以应用于超声速燃烧室的凹腔上游喷注气体燃料的贫燃燃烧为研究对象,采用数值仿真和实验相结合的手段,研究了超声速气流中凹腔稳定火焰的贫燃近吹熄特性和火焰吹熄的动态
我国大多数企业和单位都离不开财务行为,企业和单位内部的财务信息也处于实时更新或波动的状态,为了帮助企业和单位管理者及时掌握财务变化情况,实现财务信息的高效管理。但
在当今这个各方面飞速发展的时代,环境污染和能源短缺等现象愈演愈烈。风能作为绿色且可再生能源,对其进行深入高效地利用研究显得至关重要。对此,世界各国以高度重视的态度
人体姿态估计是指对图像和视频中的人体骨骼关键点进行检测,从而确定人体姿态的过程,是计算机视觉的重要研究方向。准确的人体姿态估计是理解图像和视频中人物行为的关键步骤
我们提出了一种能够对源代码块自动生成功能描述性注释的框架。在此之前这一问题已经被很多研究人员进行过了研究,不过他们的方法大多数都是基于固定模板和规则进行注释生成,