基于YARN的分布式搜索引擎设计与实现

来源 :南开大学 | 被引量 : 0次 | 上传用户:yanrj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的到来,互联网上的信息爆发式的增长,我们日常使用的搜索引擎需要检索的内容信息量也随着迅速增加。整个世界的信息数据总量在2011年就已经超过了1.2ZB,并且根据国际数据公司IDC的预测,世界信息量2020年也将超过35ZB。在这种数据量下,传统的单机搜索引擎的索引的数据量已经不能满足人们的要求,搜索引擎的研究现在纷纷转向了分布式。在Google发表三篇关于分布式系统的论文即HDFS、MapReduce和BigTable之后,Apache基于这三篇论文开发了开源的Hadoop系统。作为Hadoop框架的第二代产品,Hadoop YARN解决了在Hadoop老版系统在线程模型、内存消耗和使用效率、系统的可扩展性、系统的可靠性和性能上的缺陷,在此基础上进一步提升了新版MapReduce编程框架的执行效率。  本文在Hadoop YARN框架的基础上结合Lucene全文索引工具包、Zookeeper分布式系统同步工具、Memcached分布式缓存系统,构建了分布式搜索引擎NKCareerSearch。利用此系统不仅可以研究Hadoop YARN这一新技术,同时也可以在此基础上开展分布式搜索引擎缓存设计、分布式倒排索引存储等搜索技术的研究。  本文详细分析介绍搜索引擎的原理和工作流程并对Hadoop YARN平台的架构和优势给出了详尽的分析。在此基础上本文给出了在Hadoop YARN框架上使用MapReduce编程模型实现分布式爬虫和分布式索引模块的详细设计和实现。在使用Zookeeper作为集群管理工具的基础上,设计实现了分布式索引的分布及管理,搜索代理对外服务的抽象接口以及分布式搜索子系统的整体架构。并在实验室环境下对分布式搜索引擎系统进行了测试,并与Nutch和ElasticSearch等开源搜索引擎进行了对比分析。
其他文献
随着互联网的不断发展,Web应用程序具有了更强大的功能和更好的人机交互体验。Web应用在给人们的生活带来了便捷的同时也带来了一系列的安全隐患。Web安全漏洞层出不穷,跨站脚
互联网已成为人们获取信息最重要的途径,互联网上的绝大多数信息是以人们理解的格式来表示的,而作为智能软件代理并不理解和处理这些信息,互联网的潜力还远远没有挖掘出来。
运用卫星遥感技术的沿海水质实时监视与速报,对于国民经济有着重要的指导意义。本文利用卫星MODIS提供的对长江三角洲沿海区域的五种水质因子数据,进行聚类分析和比较研究,为沿海水质实时监视与速报提供了研究基础。 本文具体工作主要包括:(1)分析遥感卫星所提供的卫星遥感数据,开发对应的卫星遥感数据分析和处理平台,介绍平台的功能模块和演示遥感数据的读取。(2)在基于K-均值聚类算法的基础上进行海洋遥
如今,Web已经成为网络信息的主要平台,是人们获取知识的主要来源。但是,由于Web页面的无结构性、超链接的自由无序性、以及Web内容的海量性、多样性和动态变化性,使得人们从W
作为从万维网上海量的文本信息资源中发现潜在的有价值知识的一种有效技术,Web文本挖掘正方兴未艾。Web文本分类研究是Web文本挖掘中的一个研究热点。在Web文本分类中,通过更
近年来,各种针对计算机信息系统的攻击越来越普遍,并且变得更加难以防范。其攻击方式从传统的本地病毒攻击逐渐演变成分布式、高速传播的网络攻击行为。现有的入侵检测技术由于
目前,主要有两类信息安全保护技术:信息加密和信息隐藏。  信息加密和信息隐藏技术的关系很密切,信息加密是将秘密信息加密为密文数据,这样未授权用户没有密钥就无法获取秘密
随着信息技术的发展,计算机在各行各业中的应用越来越深入。计算机系统的漏洞引发的后果也愈发严重。计算机软件漏洞检测技术的研究对提高系统安全性有着重要意义。  本文首
目前我们正处在人工神经网络发展的高潮期,最近五年来,深度学习在图像识别、语音处理、机器翻译三个领域取得了巨大的成功。信息检索作为与自然语言处理高度相关的领域,也受到了
本文主要研究了J2EE核心模式的表示层模式和GoF(Gang Of Four)的一些相关设计模式。在大型复杂Web应用系统开发中,Web构件开发的复杂度和工作量常常令人望而生畏。虽然J2EE平