论文部分内容阅读
随着网络和数字媒体的快速发展,存在于网络上的视频数据呈现爆炸式增长,如何进行有效的管理和版权保护已引起了人们的广泛关注。基于内容的视频拷贝检测(Content-Based Copy Detection,CBCD)作为其中的一种重要解决方法,已成为多媒体信息处理领域的研究热点之一。CBCD主要关注三方面的问题:准确性、鲁棒性和检测效率。因此,作为解决上述问题的关键核心,视频特征的选择以及视频序列的快速匹配引起了许多学者的关注。现有的拷贝检测算法主要是将视频描述为图像帧集合,通过比对图像帧之间的特征相似度来达到对视频相似度判断。一些图像相似度算法被直接推广到了视频拷贝检测中,但这些算法所用特征过于单一,难以应对实际情况中多种不同形式的拷贝攻击变化且过于关注视频某一帧的特性,未能充分考虑视频的时间特性,不能完全适用于CBCD;此外,由于在视频中图像帧的数量非常庞大并且随着视频时长急剧增长,这样就难以达到快速检测的目的。所以,对如何提取鲁棒性较强的视觉特征并进行快速、准确的检测的研究是十分必要的。因此,本文围绕CBCD中视频特征提取和检测效率两方面问题进行了探讨和分析,在现有算法基础上提出了基于多特征二级匹配的视频拷贝检测算法(Two-Level Feature Measure, TLFM)和融合时空信息视觉词汇的视频拷贝检测算法(Spatiotemporal Bag-of-Words, STBOW)。TLFM算法设计了由粗到精的二级检测框架。粗略检测阶段提取视频镜头颜色-空间直方图特征用于拷贝镜头检索,精确检测阶段则采用基于量化编码方式改进的时空组合特征进行最终验证。为实现快速检测,在粗略检测阶段采用FLANN特征近邻检索与“尽早停止”相结合的策略。实验结果表明本文算法检测效率明显提高,对于添加边框、高斯模糊、亮度变化等全局拷贝攻击变化具有鲁棒性,在确保较高查全率的基础上,查准率也可取得较好水平。STBOW算法首先将视频描述为镜头关键帧集合,然后在传统视觉词汇(Bag–of-Word, BOW)基础上提出基于线性投射、圆形投射以及尺度变换不变直方图的改进方法,将图像局部特征的空间几何信息融入传统BOW特征之中。与此同时,为充分利用视频时间信息,将TLFM算法中所提时间特征与改进的BOW相结合,共同构造融合时空信息的视觉词汇特征。实验结果表明本文算法对于平移、旋转、尺度变化等空间几何信息改变具有鲁棒性,在检测效率并未急剧增长情况下,查全率和查准率均有显著提高。