基于哈希技术的高维数据相似性搜索研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:tmdjapanese
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
泛在的网络环境中充斥着大量的高维数据,如音频、视频、图片等。传统的线性搜索和树形搜索方法已经不能满足高维数据的快速相似性搜索的需求。近年来提出的基于哈希技术的相似搜索算法能够很好地解决传统的搜索算法在面对高维数据时遇到的“维度灾难”问题。现今,基于哈希技术的算法中最受欢迎的就是基于P-稳定分布的位置敏感哈希(LSH)算法。然而,目前基于P-稳定分布的位置敏感哈希框架有两大不足。首先,它需要大量的哈希表来保证相似查询的性能,造成索引空间占用内存过大。其次,其搜索策略的不足使得搜索效率不高。在分析传统位置敏感哈希算法的基础上,本文改进了现有的基于LSH的哈希索引计算模型和哈希索引框架。本文提出了基于哈希桶的堆排序的位置敏感哈希算法(HSLSH)。首先,该算法采用单哈希表的策略,避免了传统位置敏感哈希框架中因哈希表数量过大造成索引空间占用内存过大的问题。其次,该算法采用了基于哈希桶的堆排序的思想,返回数据对象所在桶的相似桶。以桶代替数据对象,既降低了数据维度,又降低了数据比较的规模。另外采用堆排序的方法过滤掉不相似的桶,进一步提高查询的速度。为了进一步提高相似搜索的速度,本文提出了基于桶链模型的双层位置敏感哈希搜索框架(BCLSH)。BCLSH框架采用桶链模型在构建索引时保存每一个哈希桶的相似桶引用数组,使得在查询过程中能够在O(1)的时间内返回查询对象所在桶的相似桶。为了降低索引构建的时间复杂度,本文采用了双层位置敏感哈希框架。本文采用正交位置敏感哈希函数(BOLSH)构建第一层哈希表,将数据空间划分成多个子空间,既降低了每个子空间的数据规模,又可以使得每个子空间可以完全并行的构建各自的哈希表。其次,为了解决数据分布不均的问题,BCLSH支持跨分区搜索。同时,针对HSLSH算法中堆排序的比较规则做出了进一步改进,提出了新的比较算法。理论分析和实验证明,本文提出的HSLSH算法相较于C2LSH和FBLSH算法能够进一步缩短相似搜索的时间。本文提出的BCLSH框架相较于LSH forest和DPF框架,具有更优的查询效率和更快的构建哈希索引的速度。
其他文献
随着社会的飞速发展以及数据采集设备的广泛应用,数据库中存储了大量数据。从数据中发现的知识能够帮助理解过去以及预测未来,因而推动了大量的数据挖掘技术的研究。图挖掘是
科学技术的迅猛发展推动了生物医学研究领域的极大进步,生物医学数据的爆发带来了一场数据革命,多年来积累了大量不同类型的癌症数据。癌症在分子层面上的定义一直是生物信息
李克强总理在政府工作报告中提出要发展“互联网+”行动计划以来,“互联网+”正在造就无所不在的创新来改变我们的生产、生活方式,而公益众筹正是互联网时代下公益组织创新发
植物中PPR(pentatricopeptide repeats)基因家族是最大的基因家族之一,PPR基因属于细胞核基因,编码的蛋白即PPR蛋白。本实验室前期精细定位了水稻的CISC(cold-induced seedli
手征对称性在自然界中普遍存在。作为一个由质子和中子组成的有限量子多体系统,原子核也会存在手性。1997年,Frauendorf和孟杰预言了三轴形变的原子核中存在手征对称性,引起
药品对人体具有重要的保障作用。我国对药品的监管有着悠久的历史,在先秦时期便记载着“医师,掌医药之事务”①。新中国成立以来,随着社会经济的发展、科学技术的进步以及人
绘画作为艺术的一种,是一门重要的人文学科,本文从“具象表现绘画”这一种风格理念出发,通过对“具象表现绘画”艺术家及其作品特征梳理和分析,对艺术家的审美取向进行研究。
本文详细给出了蓝牙产品型号核准自动测试系统功率测试不确定度的分析和计算方法。作者在文中用到的数学建模和数学处理方法能准确、全面、条理地找出影响不确定度的各个因素
行政特许因其所涉及行业的特殊性而成为了行政许可的一项特殊制度。我国于1984年确立了第一个特许经营项目即深圳沙角B电厂项目,自此之后供热、供水、垃圾处理、城市交通等行
本文作者介绍了40Hz-26GHz电磁环境自动监测系统的组成,简要说明其硬件部分,并重点阐述其软件控制部分。