基于哈希的高维数据近似最近邻查询研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户：lxget

【摘要】

：

大数据应用的发展给数据库管理带来了新的挑战和契机。其中,海量高维数据的快速检索作为一个非常关键的问题亟待解决。近年来,基于哈希技术的近似最近邻(ANN:Approximate Nea

【作者】

：

张晓雨

【出处】

：

西安电子科技大学

【发表日期】

：

2004年期

【关键词】

：

局部敏感哈希近似最近邻查询高维索引结构近邻敏感哈希多索引哈希

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

大数据应用的发展给数据库管理带来了新的挑战和契机。其中,海量高维数据的快速检索作为一个非常关键的问题亟待解决。近年来,基于哈希技术的近似最近邻(ANN:Approximate Nearest Neighbor)查询方法,得到了广泛的关注。其优势在于存储效率高、检索速度快,同时保证在很多情况下近似最近邻等同于精确最近邻,在实际应用中已成为解决海量高维数据查询问题的关键技术之一。解决近似最近邻查询的哈希方法可分为两大类:其一,局部敏感哈希(LSH:Locality-Sensitive Hashing),通过一组随机投影将高维特征映射成哈希编码,生成哈希函数的过程不依赖于数据的分布特征;其二,数据依赖型哈希,根据数据分布学习哈希函数,得到更加紧凑的哈希编码。哈希方法的主要研究在于(1)设计高效的哈希函数,获得区分能力强、保距性高的哈希编码;(2)在哈希编码的基础上构建可行的索引结构,并设计高效的搜索算法。本文首先研究基于稳定分布的局部敏感哈希相关的近似最近邻查询算法,如LSB、C2LSH、SK-LSH和SRS。其中,LSB、SK-LSH和SRS算法分别使用不同的策略重新组织哈希编码,使其适应于低维的高效索引结构(如B树、B~+树、R树等),以降低查询过程中的I/O开销和时间开销。但这种哈希编码重组策略固定了哈希函数顺序,可能会导致算法拒绝某些近邻被选作候选点。C2LSH采用十分灵活的动态计数策略选择候选点,使得近邻更容易被选作候选点,但缺乏高效的外存索引结构。针对动态冲突计数策略无法进行有效外存索引的缺陷,本文提出将基于稳定分布的局部敏感哈希函数调整成Binary LSH函数,结合理论计算和实验结果探索Binary LSH函数在保证近似最近邻查询精度方面的优势。继而,将动态冲突计数问题转换成汉明查询问题,并建立一种新的索引结构,能够以较少的外存访问次数实现高精度的近似最近邻查询。为了进一步提升算法的查询精度,本文引入一种高效的数据依赖型哈希算法,近邻敏感哈希(NSH:Neighbor-Sentive Hashing),使得哈希编码对距离查询较近的数据对象具有更好的区分度。近邻敏感哈希的思路跳过了哈希方法普遍遵循的对所有数据对象进行保距的原则,产生直接面向提升近似最近邻查询效率的哈希函数。最后,将近邻敏感哈希与多索引哈希结合起来,以较高的精度实现高维数据的快速近似最近邻查询。本文的实验结果不仅证明了Binary LSH算法在查询性能上的优势,也证明了近邻敏感哈希所产生的哈希编码能够进一步提升近似最近邻查询结果的精确度。

其他文献

深基坑支护技术在奥运地下通道中的合理应用

深基坑支护的设计、施工、监测技术是近10多年来在我国逐渐涉及的技术难题。深基坑的护壁，不仅要求保证基坑内正常作业安全，而且要防止基坑及坑外土体移动，保证基坑附近建筑物、

期刊

奥运通道深基坑支护

监控量测技术在北京地铁车站浅埋暗挖法施工中的应用

结合北京地铁10号线某车站施工监测实践。主要介绍北京地区浅埋暗挖法车站施工监控量测的目的、内容和方法,为今后类似地铁车站暗挖工程施工监控量测提供参考。 Combined wi

期刊

北京地铁10号线地铁车站浅埋暗挖监控量测

大射电望远镜精调Stewart平台工作空间分析

针对大射电望远镜精调Stewart平台的五自由度运动特性,采用快速极坐标搜索法确定了五自由度大射电望远镜精调Stewart平台的工作空间.通过实例分析验证了所提出的工作空间分析

期刊

机器人机电一体化Stewart平台工作空间

基于耦合协调度的公路交通与旅游融合发展评价体系研究

交通与旅游融合发展是交通运输业与旅游业在新发展时期重要的转型升级途径,这一新阶段中公路交通的功能需求和服务供给与原先相比产生了较大的变化,如果继续按照过去的交通发展思路,公路交通将很快难以满足人们日益增长的交通需求。由于对交旅融合发展特点和要求不明确,以及对区域交通与旅游融合发展程度的不明确,导致交通规划建设盲目、回报低,不能满足区域发展的需求。因此,为了更好地进行交旅融合发展建设,首先对区域公路

学位

公路交通交旅融合耦合协调度评价体系

基于ARM+FPGA全光纤激光器嵌入式控制系统的设计

近年来,光纤激光器凭借优异的综合性能,在全球工业激光器市场的份额占比接近达到50%以上。在国内市场上,国外光纤激光器占绝大多数份额,为达到更高的国产化率,实现激光器功能的多样化,就需要对光纤激光器的电子控制系统进行研究设计。在光纤激光器工作时,电子控制系统相当于大脑一样,它性能的优异将决定激光器系统的可靠与稳定。本论文的第一部分介绍了光纤激光器的国内外发展现状,分析了不同厂家的激光器电子控制系统控

学位

光纤激光器控制系统ARMFPGA

基于哈希的高维数据近似最近邻查询研究

其他学术论文