论文部分内容阅读
动作检测是近几年视频分析领域中备受关注的研究方向之一,它在智能视频监控、高级人机交互等实际场景中有着广泛的需求。与动作识别不同的是,时序动作检测既要求识别动作类别又要定位出动作在未裁剪、任意长视频中发生的时间区间。而实际应用中,未经预处理(如裁剪)的视频片段往往有大量的冗余背景,如何减轻背景帧的干扰始终是动作检测算法无法回避的问题。另外,很多动作都比较复杂,比如动作姿态差异大、时间长短不一以及涉及到人和物的交互等。这些问题使得时序动作检测算法在精度上不满足应用需求。为了进一步改善动作检测的性能,本文在分析并总结了先前的性能出众的动作检测方法的基础之上,提出一种基于完整时序卷积建模的动作检测算法。
本文首先研究并总结了先前动作检测算法的技术发展路线,对整个研究历史、现状以及未来的趋势有了更加清晰的认识;其次深入理解了整个时序动作检测算法的细节流程,探寻了每个环节存在哪些对应的优秀解决方案、当前方法的缺陷以及可能的改进方向。上述基础研究工作让我意识到目前的算法主要存在两个问题:(1)缺乏精准高效的视频表征来描述动作;(2)动作定位与动作识别不同,模型需要更关注动作的开始和结束。因此,本文把重心放在设计更好的方法来提取多个视频帧的时间关系以及产生更加完整的动作提案上。
接下来,围绕前面我们发现的关键问题,本文针对性的引入两种改进方案:(1)引入一个新的时序卷积上下文建模子模块,通过多分支时序卷积对编码后的特征的不同时间范围分别进行建模,在提取时序信息的同时引导网络去学习动作开始和结束的潜在模式,从而使得网络能更加准确地定位动作的持续时间;(2)其次,为了保证动作提案包含完整的动作内容,我们提出一个能够度量动作提案完整性的指标“交集目标比”(Intersection over Target,IoT),然后将IoT指标作为传统IoU的权重系数,最后使用该加权IoU代替传统的IoU来筛选更加完整的动作提案。组合上述模块和指标组成一个完整时序建模网络(CTMN)。
最后,我们在两个经典的动作检测数据集THUMOS’14和ActivityNet上评估CTMN模型,并与现有方法进行比较。在两个数据集上与基线方法相比精度均有明显提高。该实验结果表明我们所提的改进方法能够明显地改善动作检测的性能。
本文首先研究并总结了先前动作检测算法的技术发展路线,对整个研究历史、现状以及未来的趋势有了更加清晰的认识;其次深入理解了整个时序动作检测算法的细节流程,探寻了每个环节存在哪些对应的优秀解决方案、当前方法的缺陷以及可能的改进方向。上述基础研究工作让我意识到目前的算法主要存在两个问题:(1)缺乏精准高效的视频表征来描述动作;(2)动作定位与动作识别不同,模型需要更关注动作的开始和结束。因此,本文把重心放在设计更好的方法来提取多个视频帧的时间关系以及产生更加完整的动作提案上。
接下来,围绕前面我们发现的关键问题,本文针对性的引入两种改进方案:(1)引入一个新的时序卷积上下文建模子模块,通过多分支时序卷积对编码后的特征的不同时间范围分别进行建模,在提取时序信息的同时引导网络去学习动作开始和结束的潜在模式,从而使得网络能更加准确地定位动作的持续时间;(2)其次,为了保证动作提案包含完整的动作内容,我们提出一个能够度量动作提案完整性的指标“交集目标比”(Intersection over Target,IoT),然后将IoT指标作为传统IoU的权重系数,最后使用该加权IoU代替传统的IoU来筛选更加完整的动作提案。组合上述模块和指标组成一个完整时序建模网络(CTMN)。
最后,我们在两个经典的动作检测数据集THUMOS’14和ActivityNet上评估CTMN模型,并与现有方法进行比较。在两个数据集上与基线方法相比精度均有明显提高。该实验结果表明我们所提的改进方法能够明显地改善动作检测的性能。