论文部分内容阅读
当前,互联网上的多媒体数据呈现爆炸式增长,人们围绕海量多媒体数据开展了大量应用研究,这些应用研究都脱离不了对多媒体数据的快速检索技术。对海量多媒体数据的检索本质上是大规模高维信息索引技术,其呈现的非结构化、语义多样、维度极高等新特点,使得传统检索方法不再适用。因此,建立面向大规模高维信息的高效检索机制成为了近年来的研究热点。近年来提出的哈希和量化方法层出不穷,为大规模高维信息的快速检索问题提供了新思路。在真实环境的数据规模常可达到数十亿之巨,而目前哈希和量化方法还无法允许有效的层级式数据结构,这导致了对于大规模高维数据的存储效率低、检索精度低、检索时间长的问题。另一方面,对海量多媒体数据的检索主要是基于语义信息的搜索,当数据量极大时,由于缺乏对语义搜索的优化,目前的搜索方法所得到的搜索结果将变得不可用。鉴于以上问题,本文提出了结构化编码的概念,将量化编码映射为层级式的数据结构;进而基于前人的工作,提出了广义残差量化和聚集树;还针对语义数据设计了三种基于深度学习的语义搜索方法。本文通过实验证明了这些方法的有效性。本文的贡献和创新点主要体现在以下几个方面:1.提出了大规模高维数据的结构化编码概念。本文通过量化编码建立对应的树,并使用信息学理论探索高维情况下树结构对搜索效率的影响,从而提出了对量化方法应用于更大规模的高维信息检索上的算法设计依据。2.提出了广义残差向量量化方法。传统残差向量量化在转换为树结构搜索上具有一定优势,但其性能严重受离群点影响。本文基于残差向量量化,提出对由挑选的一个码表生成的扩展残差向量进行量化的方法。本文还设计了一个多阶段的量化步骤。实验结果表明广义残差向量量化方法相比于其它量化方法能够获得更低的量化误差,其可在线学习的特性使其适应于超大规模、动态变化的数据。3.提出了聚集树的非遍历搜索方法。本文使用广义残差向量量化编码构造树搜索结构,在该树中可使用波束搜索进行快速且准确的高维数据索引。本文通过实验比较了不同参数下聚集树的性能表现,结果表明聚集树能够得到相对于其它非遍历搜索方法更优的搜索时间精度比。4.提出了三种基于深度神经网络的同时学习深度特征和量化编码方法。使用孪生深度神经网络得到的深度特征是一种相对于手工特征,更适应于语义搜索的特征向量。但是深度特征仍然需要经过量化处理,而目前缺乏有效的同时进行深度特征提取和量化编码的学习方法。本文提出了以下三种方法解决上述问题:二极管代价函数,该方法通过控制梯度回传从而改进代价函数;宇宙飞船模型,该方法通过为输出值增加动量改进训练监督值;梯度贴合层,该方法通过增加特殊网络层改进训练方法进行同时深度特征和量化编码的学习。通过实验对比探索了这些方法对于同时深度特征和量化编码的学习的特点,并提出了针对大规模搜索的特征学习神经网络的设计依据。