论文部分内容阅读
随着网络视频应用的普及和发展,海量视频检索需求强烈,其中的核心技术是海量高维向量的快速检索。如何快速的发现,检索并结合用户相关反馈信息处理海量视频数据成为行业和领域中亟待研究和解决的问题。本文针对视频信息内容的数据特点和实际应用中海量,高维,语义,快速的需求,研究了基于哈希的近似最近邻搜索,相关反馈学习,多媒体内容的多层表示,海量数据的分布式检索,视频拷贝检测问题,视频检索中的反馈学习等方面国内外科研的最新成果,分析了目前多层高维向量快速检索的关键问题与发展方向。本文主要的研究工作和创新点包括如下几个方面:1.提出了局部敏感哈希与对等网络结合的分布式海量高维向量检索方法。针对海量高维数据的快速检索问题,首先研究了近似最近邻搜索的局部敏感哈希算法索引数据分布特点以及基于分布式哈希表的对等网络协议,然后提出一种非均匀的Hilbert曲线算法,将索引数据从哈希桶标签空间映射到对等网络的节点命名空间。进一步提出一种有效的分布式海量高维数据快速检索计算框架,用来完成索引数据的和计算负载的分布式处理。实验结果表明在5000节点的网络规模,本文算法相比SHA-1算法减少了约40%处理路由跳数和约30%的参与节点数。2.研究了采用虚拟节点算法对分布式海量高维向量检索负载均衡的优化。针对海量高维数据分布式检索的负载均衡问题,研究了对等网络的动态负载均衡算法和索引结构的数据分布特点,设计了一种基于虚拟节点的动态调度算法。在物理节点与索引数据之间引入虚拟节点层,将数据关键字空间从映射到物理节点命名空间优化为映射到虚拟节点命名空间,并提出了两层网络结构中负载动态迁移调度的算法。通过在对等协议中附加负载信息数据结构和负载探测与迁移方法,保证分布式检索效率的同时优化了系统的负载均衡,在仿真平台OverSim的实验结果表明算法在付出13%额外网络通讯负载的同时负载均衡效果改善50%以上。3.提出了基于多层表示的重复视频检测算法。重复视频检测是多媒体应用的一个热点问题,本文研究了视频的多层表示,即通过镜头分割,关键帧提取,局部特征向量提取将视频内容的检索转化为海量高维向量检索问题。提出了基于多层表示的重复视频检测计算框架,设计了一种自适应局部敏感哈希算法,通过样本学习参数,预估哈希表中桶内数据的总数,突破了桶内距离计算的性能瓶颈,并提出了特征过滤和基于投票机制的两层匹配算法。在标准数据集MUSCLE-VCD上的实验表明本文的快速检测算法相比国内外最新算法,消耗3%存储负载的同时获得了3.6-5.1倍的速度提升。4.提出了视频检索中基于典型关联分析的反馈学习算法。基于内容的视频检索问题不同于重复视频检测问题,需要更多的语义信息来判定相似的概念,本文研究了目前相似视频检索的主要算法,指出了基于二进制编码和度量学习的算法无法增量式更新索引,依赖学习样本,检索过程维护代价高的问题。在视频内容多层表示基础上,提出了基于典型关联分析的反馈学习算法,利用用户的相关反馈,将视频级别的样本信息回溯到特征向量级别,通过典型关联分析学习集合于集合之间的最优关联矩阵,并修正检索结果。在TRECVID2008的评估数据集上的实验表明与其他算法相比在保证高准确率情况下,召回率平均提升16.7%。