论文部分内容阅读
随着视频捕获设备的普及,视频数据量在持续快速增长,这使得智能视频内容分析算法引起了学术界以及工业界的广泛关注,在视频推荐、视频审核、智能监控、人机交互、辅助驾驶等领域有着巨大的应用需求。视频分析一个重要的研究任务是视频动作分类,该任务主要是要对预先裁剪好的短视频中所包含的人类动作进行分类。然而,在真实场景中视频通常长度比较长且是未被裁剪的,这些视频中通常会包含多段动作片段以及大量的无关背景内容。为了应对这种情况,近年来学术界对未裁剪视频中的时序动作检测任务展开了研究,该任务需要在未裁剪视频中检测动作开始以及结束的时间,并进行动作类别的分类。该任务的相关算法可以用于网络视频精彩片段选取、监控视频分析、智能零售视频分析等相关领域,具有很大的研究价值。现有的时序动作检测方法通常是先生成时序提名后动作分类的两阶段方法,其效率较差。因此,本论文提出了一种基于时序卷积网络的单阶段时序动作检测方法SSAD(Single Shot Action Detector),能够跳过时序动作提名生成阶段而直接生成时序动作检测结果。SSAD方法首先通过时序卷积网络来生成多尺度的时序特征序列,再采用锚定框机制将多个不同长度的时序锚定框与时序特征序列相关联,最后利用时序卷积层同时对所有时序锚定框的动作类别、重叠置信度和位置偏移量等信息直接进行预测,从而高效地实现了单阶段的时序动作检测。在实验中,SSAD方法获得了良好的效果。进一步地,本论文提出影响时序动作检测效果的关键在于时序定位是否准确,即如何生成高质量的时序动作提名。然而,现有的基于自顶向下框架的时序动作提名生成方法在灵活性和准确性上均存在缺陷。为此,本论文提出了一种基于自底向上框架的时序动作提名生成方法BSN(Boundary Sensitive Network)。BSN方法采用了一种‘‘由局部到整体’’的自底向上框架,首先在视频序列中局部地去定位具有高边界概率的时序位置,并将这些时序位置结合产生时序提名,再为每个时序提名构造一种简洁有效的提名特征,最后基于所构造的提名特征对时序提名整体地进行置信度估计,从而对时序提名进行可靠的排序。BSN方法能够产生非常高质量的时序动作提名,在时序动作提名生成以及时序动作检测任务的相关实验中都获得了很好的效果。