基于导向性分散伸展图的高效近似最近邻搜索

来源 :浙江大学 | 被引量 : 0次 | 上传用户:qiufeng115
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近似最近邻搜索问题是数据库、数据挖掘、人工智能等领域中的一个基本问题。一个具有实际应用价值的近似最近邻搜索算法必须同时具有极高的搜索速度以及合理的内存用量。相比于传统的基于树结构、基于哈希和基于量化的搜索算法,基于图索引的近似最近邻搜索算法因其搜索高且速度快的特点,吸引了来自学术界和工业界的大量关注。虽然许多早期的基于图结构的近似最近邻搜索算法算法在理论上具有十分低的搜索时间复杂度,但这些图结构索引的索引构建算法往往具有极高的时间复杂度,从而使其在目前的大数据时代场景中无法有效应用。因此近年来学界提出了诸多新的图结构索引,以期能够降低索引构建的时间复杂度。虽然这些方法取得了许多革命性的进步,但其仍旧不够高效从而限制了其在更大规模数据集上的应用。本文结合近年来的最新研究成果,对图结构索引进行了更深入的探究,以希望能够更有效地解决上述困难。具体来讲,本文从以下四个方面出发对用于近似最近邻搜索的图结构进行了探究:(1)保证图的连通性;(2)降低图中节点的平均出度已获得更快的遍历速度;(3)降低查询在图上的搜索路径长度;(4)减小基于图结构的索引的大小。基于以上四点,本文在理论上提出了一种全新的图结构——单调相对近邻图(Monotonic Relative Neighborhood Graph,MRNG),这种图结构在理论上具有极低的搜索复杂度(接近对数时间复杂度)。但直接构造MRNG的算法复杂度过高,使其在超大规模数据上不具有实际可行性。为此本文提出了另一种全新的称为“导向性分散伸展图(Navigating Spreading-out Graph,NSG)”的图结构用以近似MRNG,从而实现了一种同时具有高效索引构建与搜索性能的全新近似最近邻搜索算法。本文在SIFT1M、GIST1M等多个百万级数据集上对NSG算法进行了充分的实验验证,并在这些数据集上与现有主流算法进行横向对比试验,从而证明NSG在索引构建速度与搜索速度精度等具有巨大的优越性。最后本文提出了一种可用于工业场景的基于NSG的超大规模快速近似最近邻搜索系统设计方案,并在亿级数据集上对其可行性进行了初步验证。
其他文献
随着印刷、扫描设备精度的不断提高,个人证书、机密文件及重要合同被非法复印及篡改越来越严重,导致个人或企业财产安全受到严重威胁。目前合同防伪的主要研究方向为数字水印及防复印底纹,然而在合同文字匹配方面研究较少,合同审查主要依靠人工核对,故本文将文字匹配的合同防伪技术作为研究对象,提出文字分块的特征提取方式,用来区分形近字之间的篡改,在此基础上结合文字形态学特征建立形近字、关键文字篡改判别方法,实验表
近年来矩阵填充广泛应用于推荐系统、图像处理、模式识别等领域。矩阵填充旨在从高维数据中学习低秩结构,根据已知元素估算未知元素,从而把矩阵缺失项恢复完整。矩阵填充涉及到多项式优化、矩阵分析、流形几何等交叉学科,对于处理实际工程问题具有重要意义。针对矩阵填充存在时间复杂度高问题,在流形优化基础上,提出自适应秩估算的固定秩子流形优化算法。该算法用迭代子空间跟踪策略快速预估矩阵的秩,以此确定最优的固定秩子流
近年来,随着人类社会经济的快速发展,环境污染和气候变化问题日益凸显,人们对可再生清洁能源产生了极大兴趣。太阳能凭借其存储量巨大、分布广泛等优势,成为了最具发展潜力的
恐惧、焦虑以及创伤性相关疾病都是由于外在特殊的事物、场景、内在或者外在的特定危险性线索或者实际存在危险所产生的过度应激反应,是一种机体面对危险环境时做出的适应性
西氏贝蛔虫(Baylisascaris schroederi)是大熊猫(Ailuropoda melanoleuca)寄生虫中最常见且危害较严重的寄生虫之一,野生和圈养大熊猫西氏贝蛔虫的感染率均很高。在圈养大熊猫的
背景:许多长期压力负荷过度的疾病(如高血压病、心脏瓣膜病等)会使心肌重构,产生心肌肥厚反应。心肌肥厚最终导致患者出现心力衰竭、心律失常甚至猝死,使心血管病死亡率增加
近年来随着移动终端普及和移动智能技术的发展,基于位置的服务成为人们日常生活中不可或缺的基础服务之一,其中大型商场中低开销、高精度商铺级室内定位技术成为新的研究热点。借助大型商场中用户所在商铺信息,商家可以实时精准推送商品广告或品牌广告,同时提供个性化商品推荐服务和商品导购服务,从而降低广告投放成本并带来更广阔的盈利空间。商铺级精准室内定位技术为大型商场中商品推荐系统和广告投放提供了关键技术基础及服
在无线传感网络中节点的工作时长受限于电池电量的有限性。无线充能技术将允许信息和能量的同时传输,接收端接收到信号后,通过一定方式将其中一部分的能量用于解码信息,其余部分能量则被储存,这样就可以缓解电池电量的制约。在多个无线节点部署时,每个节点的信道性能可能相差很大,随着时间的推移差距会在变大。目前国内外关于多用户无线充能的研究主要集中于通常的无线通信场景,对系统整体进行优化。本文从无线传感设备应用场
随着科技的发展,以图像或视频为载体的各种安全检测系统被开发出来,它们广泛应用在机场、政府、监狱、银行库区、使馆、军队、港口、海关、边境等安全防范场所。车辆底盘是作
传染病模型中,行波解是否存在表明疾病是否会传播,行波解的有界性和渐近行为决定了疾病是否迅速爆发以及最终是否消灭.因此,研究传染病模型行波解的(不)存在性、有界性和渐近