海量高维数据的多哈希表索引算法的研究

来源 :大连海事大学 | 被引量 : 1次 | 上传用户:rilton
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互特网技术的快速发展,多媒体数据诸如文本、图像、视频等数据已呈现爆炸性增长的趋势。如何在海量的多媒体数据中搜索到目标数据是计算机科学研究领域的一个热点问题。由于在实际应用中,多媒体数据一般通过其特征数据表示,而这些特征表示往往是高维向量数据。此时传统的基于空间划分树、聚类划分树等索引技术的检索方案,并不能很好地应对这类海量高维数据,且面临着效率低下的问题。针对海量高维数据的近邻查询,一种主流的解决思路是把数据映射为二进制码,其主要原因是二进制码具备存储代价低、汉明距离计算快等特性。主流的研究工作包括局部敏感哈希、乘积量化、ITQ、K均值哈希等。不过,二进制表示本身也有一些问题:首先,如何使得二进制码表示能够保持原始数据之间的空间近邻结构;其次,如何利用尽量少的二进制码位数来保持尽量高的检索性能;再次,当数据的规模太大直接进行汉明距离匹配效率过低时,如何利用二进制码作为索引,给出海量高维数据的高效索引及查询方案等。针对海量高维数据的二进制表示如何索引问题,本文提出了一种新的索引结构及近邻查找算法,即基于多哈希表的索引及查询算法。首先,我们通过度量不同哈希位之间的独立性,选择最优的哈希位分组方案。由于哈希位之间的组合数是几何数量级的,我们提出了近似求解的方法来构建多个哈希表。其次,对于原始数据集中的数据点,进行离线索引的构建。再次,对于给定查询点,我们在多个哈希表中分别搜索查询点近邻,并提出了近邻查询扩展和优化方法。最后,我们结合当前主流的大数据计算框架Spark,讨论了算法的并行实现。为了评价多哈希表索引及查询算法的性能,我们在多个数据集包括公开数据集和合成数据集上,进行了大量的数值实验,并且和一些主流的哈希及索引算法进行了对比分析。数值实验说明,相比于其它算法,论文提出的算法在检索的准确率、召回率、MAP值方面具备一定的优势。
其他文献
目的:本实验通过免疫组化方法比较PTEN与FOXC1基因在非小细胞肺癌组织(NSCLC)和正常肺组织中的表达情况,并分析二者与NSCLC临床特征的关系以及在NSCLC组织中两者表达情况的相
近年来,越来越多的媒体和学者关注到医护服务行业的身体暴力事件,而对于普遍存在的来自患者方言语和态度上的攻击并没有得到广泛的关注。回顾国内外文献,目前关于顾客欺凌的
本文利用脉冲微分方程理论对几个捕食系统进行了研究,讨论了种群模型的持久性及其稳定性.全文共分为三章.第一章绪论,我们介绍了本文的研究背景和主要工作以及预备知识.第二
污水处理厂是能源密集型设施,管理者越来越关注污水处理过程中的能源消耗。研究表明,不同污水处理工艺之间吨水能耗差异巨大,这表明对于不同处理工艺过程,能耗的影响变量也不
目的探讨提高和确保新生儿BCG接种工作质量的方法和途径.方法采取完善全市组织管理体系、全员培训、设常年新生儿BCG监测门诊、扩大监测面等措施.结果 1999-2001年,新生儿BCG
目的构建结核分支杆菌IS6110 DNA指纹图谱,从分子水平探讨广东省结核分支杆菌的特征.方法参照Van Embden推荐的结核分支杆菌 DNA指纹标准方法,构建标准菌株Mt14323和广东省的