倒排索引技术在Hadoop平台上的研究与实现

被引量 : 22次 | 上传用户:ansunyou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,搜索引擎要处理的数据量越来越大,对搜索引擎的性能要求越来越高。为了提高信息检索效率,信息检索系统一般都采用倒排索引技术。倒排索引技术是搜索引擎系统的核心组成部分,它的结构设计、存储方式、查询操作和动态更新算法的好坏对信息检索的效率有很大的影响。同样为了提高信息检索的效率,搜索引擎系统中引入了分布式的计算平台,以实现并行计算。Hadoop是一种常用的开源分布式处理平台,已经被应用到许多系统,并且取得了很好的效果。通过Hadoop平台,能比较方便的进行分布式编程,让计算并行化,从而提高系统响应效率。因此,在Hadoop平台上实现倒排索引技术对搜索引擎效率的提高有重要意义。本文利用Hadoop分布式计算平台,使用HDFS文件系统和Map-Reduce的原理,设计并实现了一种基于分布式系统Hadoop的倒排索引结构。这种结构的倒排索引,能够在一定程度上节省磁盘存储空间,提高信息检索效率。本文首先研究分析了Hadoop平台的系统架构、主要组成部分以及其中的两个关键技术——Map-Reduce编程模型和HDFS文件系统的原理;研究了Hadoop中Map-Reduce作业的提交和任务的运行流程,分析了整个过程中数据流的走向,以及基于Hadoop的应用程序设计原理与方法;在分析传统的倒排索引技术实现方案及相关算法后,验证了在Hadoop平台下实现的可能性倒排索引的可能性。在此基础上,在Hadoop平台下设计了一种倒排索引结构,该结构主要由主索引、段索引、删除索引和词典库等部分组成。然后详细介绍了该结构的各组成部分。设计了基于词频高低和词频排名的倒排文件存储策略,以及倒排项中数字信息的压缩编码方法——综合编码压缩法;设计了倒排文件的压缩格式的选择。针对这种倒排索引的结构,设计了Map-Reduce方式的倒排索引构建算法、基于段索引的倒排索引更新算法、基于删除索引的倒排索引删除算法以及基于词典库的倒排索引查询算法。最后在Hadoop分布式集群环境编程实现了以上结构的倒排索引和相关操作算法,并且进行了测试和验证。
其他文献
a-淀粉酶(a-amylase, EC.3.2.1.1)普遍分布在动物、植物和微生物中,是一种重要的淀粉水解酶,被广泛应用于淀粉加工、医药制造、食品制造、纺织品退浆、洗涤剂生产等行业,是应用
目前很多研究结果都支持'病从口入'这个说法,更是有绝大部分人绝对认同这个观点。人们认为,饮食不注意卫生是多数传染病发生的主要原因。相关统计数据显示:死亡率较
位于浙闽赣三省交界处的江山市,历史上就是一个文化资源丰富、文化底蕴深厚的边城。一条绵延数百里的仙霞古道,沿线散落了众多至今仍显得光彩照人的文明古迹。如何充分利用这些
罗布麻纤维被称为野生纤维之王,具有其独特的优异性能,罗布麻纤维改性的研究对罗布麻由资源优势向市场优势转化提供一定的基础。丝胶蛋白是一种与人体亲和性很好的蛋白质,具有抗
目的:探讨膀胱尿压测评在脊髓损伤后神经源性膀胱尿潴留中的应用和研究,为临床管理提供量化依据。方法:将72例神经源性膀胱尿潴留患者采用随机数字表法分为试验组和对照组各36
针对我国面临的严重铬污染威胁,进行了将铬污染土壤与粉煤灰混合后在高温下解毒,获得陶粒产品以实现资源化利用的研究。通过单因素试验,以Cr(Ⅵ)浸出浓度和陶粒颗粒强度为控
附属发酵剂是为了缩短干酪成熟时间、改善干酪品质而加入到干酪中的外源微生物,是干酪中一种独特的微生物菌群。本文利用传统诱变方法和基因组改组技术相结合的方法对植物乳杆
污泥是污水处理厂污水处理的二次产物。随着人口的增多和工业的发展,污泥量大大增加,污水厂总处理水量和处理程度也不断扩大和提高。为防止污泥造成的二次污染及保证污水处理