论文部分内容阅读
随着网络技术的飞速发展,盗版视频日益猖獗,数字版权保护变得至关重要。作为加密技术和数字水印的替代方案,基于内容的拷贝检测(CBCD)得到了越来越多的关注。然而,拷贝检测并非易事,因为拷贝视频大多经受了质量下降甚至是内容改变,使得很难从拷贝视频和原始视频中提取出不变特征。为此,越来越多的研究使用多种互补特征来应对复杂的音视频变形。然而这些方法大多单独利用每一种特征进行拷贝检测,然后再将检测结果融合起来,这导致系统效率低下,并且结果融合中一般涉及很多参数,需要耗费大量的精力进行调节。除了由复杂变形带来的困难之外,在利用某种特征对查询视频的视觉帧或者音频帧进行检索之后,还需要合适的时域投票方法将帧层次的检索结果整合成为视频层次的拷贝检测结果。本研究主要内容包括: 第一,提出了一种基于多模态特征和时域金字塔匹配(TPM)的拷贝检测方法,用于解决单一特征无法抵御所有变形以及特征相似性搜索忽略了视频时域特性的问题。由于一种特征只能抵御一类变形,本文挑选了三种互补的多模态特征,即局部视觉特征DCSIFT、全局视觉特征DCT和音频特征WASF,并利用后续的结果层融合来抵御绝大部分变形。此外,为了利用视频的时域特性将帧层次的检索结果融合为视频层次的拷贝检测结果,本文提出了时域金字塔匹配(TPM)模型。TPM模型利用金字塔匹配核,将查询视频和参考视频分割成越来越精细的子段,并在多个粒度上计算两者的相似度。实验表明本文选取的三种特征是有效的、高度互补的,并且TPM效果好、速度快、适用性广。 第二,提出了一种变形敏感的软级联(TSSC)拷贝检测方法,用于融合多个独立的基本检测器。TSSC模型包含一个变形识别模块和若干条级联检测器链。对于一个查询视频,首先识别它所经受的变形,然后将它传递给相应的检测器链进行处理。这条链中的检测器依次处理这个查询视频,直到某个检测器判定它是拷贝为止。TSSC模型中的每个检测器都有一个相似度阈值,用于判定查询视频是否为拷贝。为了充分发挥所有检测器的互补性,同时避免阈值调校的负担,本文提出了一个机器学习算法,自动选择出最优的相似度阈值。实验表明本文使用的变形识别方法是有效的,并且TSSC模型可以显著提高系统的检测效果和速度。 第三,开发了一个拷贝检测软件CDetector,用于初步满足现实的拷贝检测需求。CDetector包含五个基于TPM的检测器,分别使用DCSIFT、SIFT、SURF、DCT和WASF特征,并利用TSSC模型对这些检测器进行结果层融合。此外,CDetector还具有多线程加速、允许用户配置和直观展示结果的优点。在TRECVid2010 CBCD国际比赛中,对于56种音视频变形,在BALANCED评测模式下,CDetector在39个变形上取得了最优性能,在NOFA评测模式下,CDeteetor在52个变形上取得了最优性能。在TRECVid2011 CBCD比赛中,在BALANCED模式下,CDetector在34个变形上取得了最优性能,在NOFA模式下,CDetector在31个变形上取得了最优性能。综上所述,本文针对大规模、包含复杂变形的拷贝检测任务进行了研究,并且开发了一个具有一定实用性的系统。大量实验表明,本文将拷贝检测的效果推向极限,同时显著提高了拷贝检测的效率。