图形处理器对倒排索引求交运算的优化

来源 :南开大学 | 被引量 : 0次 | 上传用户:jiaoqianqian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大型搜索引擎系统每秒钟都在响应着大量的用户请求。这些查询请求希望从上百亿张网页中检索出最相关的网页集合。随着互联网业务的迅猛发展,搜索引擎系统检索的信息量和承担的计算负载正以指数增长速度膨胀。为了快速完成这些沉重的任务压力,我们利用图形处理器(Graphics Processing Units)来完成部分计算任务。在本文中,我们探讨了几种新的算法来加速搜索引擎中的一个重要且频繁的操作:倒排索引求交。   本文的主要工作包括:   1.为了充分发挥GPU的计算潜力,本文设计了批次处理模式。在批次模式下,若干个查询被绑定为一个批次发送到GPU上进行并行处理,以此取得较高的系统吞吐率。本文设计了查询-线程块并行策略(query-partition)来实现这个批次模型。为了改善负载均衡的情况,我们设计了docID-线程并行策略(query-parallel)。   2.在系统负载较低的情况下,CPU或者GPU应该立即处理当前到达的查询请求,以取得最低的响应时间。为此,本文设计了一个在线调度算法,用于将当前到达的查询派发到能够最快完成任务的处理器上。   3.本文将Bloom filter应用到GPU倒排索引求交领域。虽然Bloom filter具有一定的误称率,但本文通过选择合适的哈希函数,将错误结果比例控制在很低的水平。实验显示,Bloom filter方法符合GPU的并行特征,能够大幅度提升系统吞吐率。   4.本文分析了倒排索引的数据分布特征,总结出了大部分倒排索引都具备明显线性形态的重要结论。这种线性性质来源于搜索引擎抓取网页和分配docID过程中的随机性和不确定性。为了增强这种线性特征,我们设计了利用fisher-yates随机算法进行倒排索引重排的策略。在线性性质明显的数据集合上,一元线性回归能够取得较好的拟合效果。   5.本文在倒排索引数据分布的基础上,设计了线性回归搜索算法。良好的线性性质等价于docID在倒排索引中的较均匀分布。因此,本文设计了哈希分段搜索算法。实验显示,线性回归搜索和哈希分段搜索均能够实现可观的加速比。
其他文献
在访问控制的三种策略中,基于角色的访问控制(RBAC)策略近些年来一直是研究的热点。相比较另外的两种访问控制策略:自主访问控制(DAC)与强制访问控制(MAC),RBAC具有更高的灵
近年来,网络的普及使得嵌入式系统被广泛的使用,越来越多地应用于各种领域(如手机,PDA,RFID等)。每天的生活中,一些嵌入式系统被人们用来处理一些敏感信息(如手机或PDA上的信
随着网络在人们工作和生活中的广泛应用,网络故障管理的重要性日趋显著。网络系统规模的扩大化以及结构的复杂化,使得网络管理和维护的难度进一步加大。网络中存在很多引发故
李群机器学习与深层结构学习是近年来倍受人们关注的新的机器学习方法,本文将这两种方法进行有机融合,给出了李群深层结构学习算法。主要包括以下几方面的内容:1)分析了李群
跨语言词汇语义相似度反映的是来自不同语言的词语之间的语义相似程度,它是跨语言信息获取系统的一个基本组成部分。随着近年来网络上多语言资源的增多,跨语言词汇语义相似度
计算机视觉的不断发展使得人们对视觉应用的实时性要求越来越高,传统单核平台上的串行应用程序已不能满足人们的要求,多核平台的出现为该问题的解决带来了新的突破口,多核平
在现实世界中,存在着大量的含糊、不确定、不完全和模糊的信息。如何精确描述这些信息是科学研究中很重要的问题。当前,处理模糊信息的方法主要是建立在Zadeh提出的Fuzzy集的
互联网的快速发展,使数据规模呈指数级增长,海量的数据中蕴含着非常多的信息,需要我们挖掘与分析其中价值,在使用传统驻留内存的数据挖掘算法处理海量数据时受到了单机性能问
随着现代数字化、信息化和网络化的普及,如何确保存储涉密介质如移动硬盘、优盘、笔记本电脑和密级文件的安全,已成为保密设备控制应用中重要的研究问题。为了提高保密设备的
随着我国社会经济迅猛发展,大气污染问题愈加严重,引起了政府、学者和民众的广泛关注。为了更好地反映大气污染变化趋势,加强大气污染防治,研究污染物的预测方法就显得意义重大。