定向多探头随机超平面局部敏感哈希

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:dd398622409xiewenjin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类步入大数据时代,人们的衣食住行都离不开信息与数据。相似性搜索是大数据研究的一个重要方向。数据的分析与处理往往离不开对高维数据的匹配与查找。针对于高维数据的大规模相似性搜索,局部敏感哈希被认为是一个行之有效的方法且同时被广泛的运用到各个领域中。在最近的几年,许多有关局部敏感哈希的改进算法相继被提出。在使用局部敏感哈希时,为了提高搜索的质量,往往需要消耗大量的空间来存储哈希表。为了克服这个缺陷,相关的研究者提出了基于多探头的局部敏感哈希。此方法在很大程度上提高了哈希表的利用率,从而节省了存储空间。对于多探头局部敏感哈希,现在最常用的两类探寻方式分别为步进式多探头局部敏感哈希与定向多探头局部敏感哈希。相比于步进式多探头局部敏感哈希,定向多探头局部敏感哈希搜索速度更快,所需探头数量更少。然而如今定向多探头探寻方式是基于E2LSH。这意味着它只能适用于欧式距离。对于余弦相似系数,步进式多探头局部敏感哈希是唯一可执行的多探头探寻方式。提出一种基于定向多探头探寻方式的局部敏感哈希用以弥补余弦相似系数下定向探寻方式的空白。同时给出一套完整的数学理论证明作为算法的理论依据。为了说明该算法的优越性,采用了多个公开数据集分别对定向多探头随机超平面局部敏感哈希与步进式多探头随机超平面局部敏感哈希进行了实验。根据实验结果,前者相比于后者在达到相同的召回率时需消耗更少的探头与搜索时间。算法相比于原始局部敏感哈希有更高的空间利用率。另外定向探寻方式仅仅改变了探寻顺序并没有改变存储空间中哈希表的数据结构。这意味着该算法与现有数据结构并未发生冲突,可以直接被使用于现有的局部敏感哈希算法中。从而在减少了空间消耗的同时也保证了搜索的速度。
其他文献
Android是2007年底由Google推出的源码公开的智能手机操作系统,从推出至今已经得到越来越多人的研究和使用,诸多智能手机生产商开始定制属于自己平台的AndroidOS。成千上万种的
经典粗糙集理论的提出主要是针对完备信息系统,其对数据的完整性和精确性要求很高,在数据的处理和分析上存在着一定的局限性。由于现今海量数据中常常存在数据的缺失。作为经
近年来,能耗已经成为嵌入式系统设计中人们关注的焦点,这主要是因为电池供电的便携式和移动式的嵌入式产品的广泛应用。高速缓冲存储器,即Cache,是为了解决存储器和CPU速度匹配而
逆向工程技术是近年来发展起来的一种新的工程设计技术,以其独特的优势逐渐渗透到了各类产品行业,成为现代产品设计的主流技术。逆向工程主要包括三个部分:三维数据测量、数据预
实时多媒体流的传输不仅需要解决传统Internet固有的网络拥塞问题,而且需要满足其实时性要求,因此,解决实时多媒体流的传输问题具有较高的理论意义和工程实践意义。本文在研
随着自然语言处理、数据挖掘等技术的发展,尤其是搜索引擎的广泛应用,人们可以很高效地将原本分散的信息组织在一起,普通用户也能便捷地从网络中获取期望的信息。然而强有力
信息技术和互联网技术的飞速发展,产生了大批服务于各行各业的企业管理信息系统,同时也带来了“信息孤岛”问题。企业应用集成技术一开始就致力于各异构系统之间的信息交互和资
现代汽车中电控单元数量不断增加使得汽车变得更安全更智能化,但不同硬件的电控单元使得汽车电子软件的可复用性大幅降低,严重影响产能和新产品的研发。基于这种情况,汽车电子业
随着科技的不断发展,单片机技术被广泛地应用于各个领域,极大地改善了人们的生活水平。单片机的应用将会越来越广泛,企业将需要大量的单片机人才,而高校是人才培养的摇篮,但是目前
计算机和互联网技术的普及与快速发展使得数据的产生、收集、存储日益便捷,因而数据量呈爆炸式增长。但是信息过载,使得人们面对海量的数据往往无从下手。因此频繁模式挖掘被提