论文部分内容阅读
现有的视频拷贝检测算法没能将视频的空间域特征与时间域特征有效结合起来,从而在检测性能上仍有很大的提升空间。虽然一些基于卷积神经网络(Converlutional Neural Network,CNN)特征的最新算法在检测性能上超过了传统的基于手工特征的检测算法,但由于没能处理好视频空间域特征与时间域特征之间的关系,其检测性能仍然不高。鉴于上述不足,本文提出了两种基于时空域特征的视频拷贝检测方案。1)提出了一种基于时空域CNN特征的视频拷贝检测算法为了解决现有的视频拷贝检测方法存在的检测准确率低,检测效率不高的问题,本文提出一种新颖的视频拷贝检测算法。由于视频数据量通常很大,为了减少数据计算复杂度,本算法首先对视频进行等间隔采样处理。然后利用CNN网络对采样视频帧提取紧致的空间域特征。为了更加精确地描述视频,本算法对CNN输出的卷积特征图计算质心并编码得到时间域特征。该特征作为空间域特征的补充,可以弥补空间域特征描述能力的不足。在拷贝检测时,首先使用空间域特征筛选出可疑的拷贝视频,然后利用时间域特征过滤错误的匹配结果,得到最终的拷贝检测结果。该方法由于使用时间域特征进行后验证来去除错误的匹配结果,因此检测准确率较高。并且,CNN特征的使用使得提取的特征足够紧凑,从而在提高检测准确率的同时,加快了拷贝检测速度。2)提出了一种基于时空视觉词和分层索引的视频拷贝检测算法为了进一步提高现有视频拷贝检测算法的性能,本文提出了一种基于时空域视觉词和分层倒排索引的视频拷贝检测算法。该算法从采样后的视频帧中提取更加鲁棒的SURF描述子(Speed-Up Robust Features,加速鲁棒特征)作为空间域特征,并通过词袋模型对SURF特征进行量化得到空间域视觉词。针对上一算法中生成的质心不稳定的问题,本算法中利用SURF点的稳定性并对视频帧间的SURF点位移信息进行编码,得到多层时间域视觉词。为了实现高效检测,将时空域视觉词保存在本算法提出的基于多层视觉词的倒排索引结构中。在拷贝检测阶段,为了区分时空视觉词对视频描述能力的不同,采用分层计算的方式获得时空视觉词各层间的匹配相似度。最终通过相似度融合计算得到两视频间的相似度,进而判断出当前视频是否是原视频的拷贝版本。大量的实验结果验证了本算法在检测准确率和检测效率上的优异性能。