论文部分内容阅读
视频动作定位是动作识别的前提,不准确的动作定位结果会进一步影响动作识别的精度,所以研究高效准确的视频时序动作定位方法很有必要。在实际中,视频往往是未分割的,也就是说事先并没有给出预分割出的提议段,如何在内容复杂多变的未分割视频中快速定位出各个不同种类和不同长度的动作片段具有很重要的研究和实际意义。现有的视频动作定位通常由候选提议段抽取、提议段特征提取和动作边界回归组成。由滑动窗生成候选提议段策略存在的问题是产生的候选提议段数目庞大,不仅给后续的特征提取和回归任务带来很大负载,且产生的大量提议段和真正的动作片段关联性较差。另外,边界回归网络是一种单元级定位方法,粒度较大,对大尺度视频片段的定位结果不是很理想。因此,为了解决上述问题,本文提出了一种轻重网络相结合的时序动作定位方法,首先通过轻量级网络进行动作提议段的粗检测,然后通过重量级网络对提议段检测结果进行帧级别的细粒度动作定位,最后对稠密的预测信息进行NMS合并后处理。具体的做法为:在提议段检测模块,把滑动窗产生的不同尺度下的视频片段作为输入,送入到基于ResNet-10的提议段识别网络进行二分类(0为提议段,1为非提议段,即背景),骨干网络采用ResNet-10的好处是该轻量级网络可以快速地对视频片段进行提议段识别。针对检测到的提议段的动作位置不准确问题,本文设计了基于ResNet-50的时序动作回归网络进行帧级别的动作置信度判识和位置偏移量预测。这样做的好处一方面是采用重量级不仅可以提取视频片段的更具区分性的深度特征,另一方面可以产生稠密的类别和位置预测信息,方便对小尺度和大尺度的提议段都进行更好的定位。为了验证本文提出的轻重网络相结合的未分割视频时序动作定位方法的mAP和AR-AN性能,在THUMOS-14数据集上进行了实验测试,实验结果表明,本文方法比2017年 Gao J 等人在 IEEE 会议中提出的 TURN(Temporal Unit Regression Network)方法mAP@0.5高出8.49%,比2018年Lin T等人在ECCV会议中提出的BSN(Boundary Sensitive Network)方法mAP@0.5高出1.11%;基于ResNet-10的时序动作提议段检测方法和TURN方法产生候选提议段个数分别约为6.6万和40.8万(约6倍的差距),但本文方法在AR-AN@100高出TURN方法7.12%;综上实验结果表明,相对于现有的方法,本文的方法快速且高精度完成了未分割视频时序动作检测任务。为了实际应用,本文将研究结果应用于空巢老人远程救助中,针对空巢老人无人照看在发生跌倒等危险动作时无法得到及时救治的社会问题,开发了一款基于时序动作定位的空巢老人远程救助系统,实现对处于监控条件下的空巢老人实时进行跌倒检测和自动预警,使老人可以得到外界的及时救助。