论文部分内容阅读
随着世界公共安全形势的日趋复杂化,越来越多的监控摄像头被安放在街道、室内场所等的各个角落,由于监控摄像头每天24小时不间断的采集数据并传回视频监控中心,导致监控视频的数量非常庞大,造成了存储空间紧张、查找困难、浏览低效等问题。 由于监控摄像头分布的位置广泛,对于某些角落的摄像头来说,很难找到与其相关的文本信息。通过对监控视频的观察发现,动作是分析目标行为的基本元素,通过分析目标行为,就可以对该视频进行线索追踪,从而进行有语义的视频摘要。因此,本文提出了基于动作归纳的视频摘要方法。 本文提出的模型主要分为两个部分:基于动作识别的视频分割和基于动作归纳的视频摘要。由于电影的文本信息获取方便,因此,本文利用电影数据作为视频分割模型的训练数据,在该模型中,本文解决了全标记数据训练的费时费力问题,通过提出连续的多实例学习模型,解决了模型训练时,弱标记带来的二义性问题。在视频摘要模型中,通过提出基于动作归纳的摘要模型,解决了视频摘要的评价问题。本文方法的主要流程为:首先,利用字幕、剧本对视频进行弱标记;然后,利用弱标记的视频训练基于连续的多实例学习的分类器;接着,利用训练好的分类器,计算监控视频的每一帧属于某个动作的概率;接下来,利用视频分割模型,将监控视频根据每一帧的概率值,分割为一个个视频片段;最后,利用基于递归神经网络的模型,对每一个动作片段进行摘要,摘要出每个动作最有区分度的视频帧。 通过本文的模型,可以从高层语义层面对监控视频进行摘要。通过多个实验结果的展示与比较,证明了本文方法相比其他方法的优势所在。