基于P-稳态分布和空间球面网格的位置敏感哈希算法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:iamfly2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
利用数据的相似性对海量数据进行检索是计算机科学中的一个热点研究问题,在多个计算机领域应用广泛。利用数据的相似性进行检索的方法分为两类,最邻近检索和近似最邻近检索。位置敏感哈希算法是一种以概率论和欧几里德几何为理论基础的近似最近邻检索算法。传统的位置敏感哈希算法存在着一些不足,例如传统的位置敏感哈希算法对空间中距离远的数据点的过滤效果有限。而且为了保证算法较高的准确率,需要构建大量的索引表,降低了算法的索引建立效率。为了提出性能更好的解决相似性检索问题的算法,本文在原有的工作上做了以下工作:研究了传统的位置敏感哈希算法,指出了当查询点与数据点距离远时过滤效果差的缺点,针对这个缺点提出两层结构的位置敏感哈希算法。两层位置敏感哈希算法利用空间球面网格将数据集划分成若干有界的子数据集来提高位置敏感哈希算法对距离远的点的过滤效果,同时对数据点的投影区间进行延伸,降低距离近的点被映射到不同区间的概率。计算了两层位置敏感哈希函数的碰撞概率,并给出了两层位置敏感哈希函数的参数?的上限。结果显示两层位置敏感哈希函数在误判率和漏判率低于原有的位置敏感哈希函数。利用MATLAB在CIFAR-10数据集的GIST特征库上对两层位置敏感哈希函数做了对比试验,在准确率和召回率上将两层位置敏感哈希函数与现有的位置敏感哈希函数进行对比。针对两层位置敏感哈希算法的结构的特点,设计了分布式哈希索引表。两层分布式索引表结构利用两层位置敏感哈希算法分两步对数据集进行哈希的特点,将索引表设计成两层分布式结构。两层分布式索引表可以有效降低算法进行检索时的内存占用率,提高了算法对海量数据进行检索时的检索效率。本课题使用搜狗实验室2012版本的数据测试集进行实验,并在检索性能方面与其他海量数据检索算法进行了对比分析。对使用了两层哈希索引表的两层位置敏感哈希算法在检索时间、检索准确率和算法可扩展性方面与单层哈希索引表进行了对比实验。实验证明,在对海量数据进行检索时,本文提出的方法拥有良好的可扩展性,并且具有较高的检索准确率和较快的检索速度。
其他文献
随着计算机和网络技术的不断发展,电子商务行为越来越普遍。在电子商务交易中,为了节省买卖双方为谈判完成交易所花费的大量工作和时间,提高交易效率,有效降低交易成本,有必
图形用户界面(Graphical User Interface)是计算机系统中的一种人机交互技术,该技术的重要内容包括:丰富的图形图像信息、直观的表达方式和用户交互。随着嵌入式设备在人们日
实体间语义关系抽取是信息抽取中的重要环节,目的是通过命名实体对的上下文来确定实体之间是否存在关系以及存在何种关系。作为实体关系抽取的重要分支,人物关系抽取问题受到许
目前,键盘和鼠标是被运用最广泛的人机交互设备,但是其在使用友好度,体验度上面有所局限性。于是触摸屏便成为继键盘、鼠标之后最为普遍接受的输入方式,它方便了人们对计算机
计算机网络的广泛应用给我们带来了方便的同时,也产生了许多意想不到的问题,计算机安全就是其中一个突出的问题。各种恶意代码如病毒,蠕虫,木马等的广泛传播更是对个人用户及
随着互联网和移动手持设备的普及,网络视频已经成为互联网领域最重要的应用之一。网络视频广告带来的巨大利益成为了很多运营商的主要收入。但由于视频中插入过多无关广告,强
随着现代生物学和医学的发展,生物免疫学的研究得到了极大拓展,同时也使免疫学产生了许多交叉学科。近年来,计算机科学和其它工程科学与免疫学交叉研究逐渐成为国际研究领域
随着多媒体技术和网络技术的发展,视频、图像等多媒体信息的传输业务日益广泛的应用于人们的生活。然而在信息的传输通道中,无论是IP网络还是无线移动网络信道,都不可避免的
本文主要从文本预处理和文本聚类两方面较为系统的研究了中文文本聚类的全过程。首先介绍了文本聚类关键技术的基本现状,让读者对文本聚类的主要过程有了进一步的了解。针对
本文主要针对当前工作流管理系统在实际应用中集成能力差、柔性差、互操作性不高、模型缺乏对分布式环境的支持等缺点,提出了基于SOA的工作流管理系统。SOA和Web服务作为一种