论文部分内容阅读
随着计算机的快速发展以及互联网的迅速普及,信息在互联网上爆发式增长,文本、图像、音频、视频等的发展导致表达数据需要更高的维度。为了更快速地对用户做出反应,如何在短时间内快速地在海量的数据库内进行匹配搜索并进行反馈,成为目前巨大的挑战。基于此背景下,近似最近邻(ANN)相关的算法被相继提出。其中,基于量化的搜索技术由于搜索性能高,表达能力强,占用内存空间小等优点取得了巨大的成功。但是,大多数现有的量化方法都是基于批次的模型,不适合处理流式数据,且现有的在线乘积量化模型没有对空间分解进行优化。为了解决上述问题,本文提出了一种在线优化的乘积量化(Online OPQ)模型。该模型可以动态更新量化码本和旋转矩阵,在模型更新阶段对空间分解进行优化,降低了量化误差,提高了搜索性能。由于在线OPQ本质上是一个在线模型,故在更新过程中只需用到新数据而不需要历史数据。在参数初始化阶段,采用优化的乘积量化(OPQ)算法,对码书、旋转矩阵以及计数器进行初始化,在后续参数更新过程中,当学习新数据时,在线OPQ会先将数据旋转到最优空间上,随后利用Kmeans算法的计算过程对码书进行更新,更新后便可以得到相邻的两个批次的码书,为了保证空间的最优性,本文提出引入一个修正矩阵对旋转矩阵进行更新,修正矩阵用来追踪中心点的变化,为了保证旋转矩阵的正交性,需要修正矩阵也为正交矩阵。而求解修正矩阵的过程恰好为Orthogonal Procrustes问题,通过求解该问题,可以保证修正矩阵的正交性。以此达到每次数据迭代时,对在线OPQ的更新。此外,为了衡量在线OPQ模型与传统OPQ方法学习出的码本的差异,在理论上导出了损失误差边界。本文通过在公共数据集上与基线模型进行了一系列对比实验,通过实验结果表明,与基线模型相比,在线OPQ在近似最近邻搜索上的性能更为有效,且分解的子空间越多,码书的表达能力越强,则量化性能越好,并且通过追踪中心点变化这一方法能够在模型更新过程中对分解的空间进行优化,以此降低量化误差,进一步提高搜索性能。