论文部分内容阅读
通过视觉,人和动物感知外界物体的大小、明暗、颜色、动静,这些信息对于生物生存和发展至关重要。视觉是人和动物最重要的感觉,至少有80%以上的外界信息经视觉获得。当前,人工智能作为科学研究前沿研究方向和产业智能化的一个重点,势必会关注和挖掘视觉领域的算法和应用。当前计算机视觉信息的存储都是利用时间和空间域上的离散颜色信息,如何通过这些离散的信息,让机器可以实现类似于人的信息挖掘能力,仍是学界和业界业界的一个难点,这些研究统称为计算机视觉。计算机视觉研究的内容,按照研究对象是否包含时间信息可以分为静态图像的研究和对视频的研究;按照实现的功能可以分为分类、分割、目标检测、目标跟踪等领域。本文将重点关注视频中的目标检测。视频目标检测的主要目标是在视频中找到其中出现的目标类别及其位置。这个方法可以直接应用于生产生活的很多领域,例如安防、自动驾驶、智慧城市等,有着广阔的应用前景。与视频信息相比,视觉信息的另一个重要载体是静态图像。自2012年以来,深度卷积网络已经被广泛应用于计算机视觉领域的诸多研究方向,尤其是静态图像领域。静态图像重点目标检测已有大量深度卷积神经网络模型,取得了较好的效果。这些方法包括单阶段方法和两阶段方法等。其一般思路往往是生成大量可能存在目标的候选框,随后根据视觉特征对这些候选框进行内容分类和边框回归,两阶段方法在进行分类和回归前还会有一个候选框的初步筛选过程。人们尝试将静态图像的目标检测直接应用于视频的每一帧中,但这种方法没有利用好视频是一个空间与时间信息集合体的特征,因此容易受到遮挡、模糊以及光照条件等变化带来的准确性降低等问题。本文将在时序信息的利用上进行较为深入的研究,探索一种在保持高效率的基础上可以实现更高准确率的模型。因此,本文将以静态图像上单阶段目标检测的方法为基础,加入对时序信息的利用,来提高目标检测的精度。在视频目标检测算法方面利用一个被广泛使用的深度网络模型作为后端以提取其关键特征,选取不同层次的网络层输出进入到特征金字塔网络中提取多层次的特征来对大小不同的目标进行特征提取并充分利用不同层次直接的相互关系,并根据不同层次的网络输出构建目标框,之后将这些层次特征组合,输入到两个子网络中,同时结合时序信息,对目标框进行类别判定和边界回归微调,其中在分类判定子网络中,为了避免单阶段方法中没有对候选框进行筛选可能造成的前背景巨大不平衡问题,本文采用了焦点误差函数作为该子网络的损失函数。最终结合两个子网络的输出,经过非极大抑制,产生最终目标检测的结果。本文经过在优达城自动驾驶公开数据集上的对比实验,证明了焦点误差函数和时序信息使用的有效性。通过对比仅在单一子网络中增加卷积LSTM层,可以发现这一改动相对于不带循环经济网络单元的层影响不大,而当在两个子网络中均增加卷积LSTM结构时,目标检测的效果则有明显提升。此外,通过与焦点误差函数与传统的交叉熵函数的对比,可以发现焦点损失函数在减轻前背景巨大不平衡上起到了重要的作用。最后,本文通过实验对模型的计算时间性能进行评估,证明了模型在提升检测效果的同时,相比不带循环神经网络结构的模型,仅增加了少量的计算复杂度。