基于Solr的海量数据并行索引及搜索缓存研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:funwoods
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网信息技术的快速发展,企业信息化程度不断提高,各个行业内的数据信息急剧增长,而且信息的存在形式也越来越多样。这也使得如何使用户能够快速、精确的从企业的海量数据中找出所需要的关键信息变得越来越重要,而解决这一个问题的关键就是搜索引擎技术。随着开源企业级搜索应用服务器Solr的出现,越来越多的企业开始构建以此为基础的海量数据搜索服务系统。传统的搜索方式是使用文本数据库,虽然文本数据库和搜索引擎的技术基础都是全文检索技术,但是文本数据库在处理海量数据方面的能力无法跟搜索引擎相媲美。搜索引擎采用服务器集群和分布式计算的策略,能够处理较大的数据量。在海量数据的背景下,如何更好地利用开源Solr搜索引擎服务器搭建起快速高效的搜索引擎也成为重要的研究课题之一本文针对这种需求,在基于Solr搜索引擎服务器的基础上,进行海量数据搜索服务的研究。本文首先分析搜索引擎服务器集群的运行特点,运用随机过程中的排队模型对集群系统的可用性进行分析。接着在可用性的基础上深入研究搜索引擎的索引构建和搜索索引两个关键过程。索引构建的过程是将文本转化为能够被搜索引擎搜索的索引文件。本文在分析的基础上提出并行索引的方式,将文档构建索引过程中的部分串行操作并行化,并通过性能负载均衡的策略提高各节点的资源利用率,以应对海量数据构建索引的场景,加速索引的构建。对于搜索的过程,本文首先分析Solr的搜索过程,提出分级缓存模型。模型将频繁搜索的热点数据放置在缓存中,并对缓存数据进行分级,同时提出热相关数据的概念,通过词语相似度计算出与热点数据相似的数据,加载至缓存模型并进行分级操作。本文同时针对分级缓存模型提出了维护策略,充分利用缓存空间,最后改进传统的缓存预热算法,提高系统运行初期的缓存命中率。本文通过搭建搜索引擎服务器集群,对海量数据的索引构建和搜索过程进行实验研究。实验结果表明,本文提出的并行索引和分级缓存模型能够有效提升搜索引擎的索引构建速度和请求响应速度。
其他文献
网格作为一种异构的、动态的平台,其任务调度的目标是在满足一定的服务质量、性能指标和优先级约束的前提下,将可以并行执行的任务按照合理的分配策略映射到相应的资源节点上
随着P2P网络技术的发展,已经广泛应用到文件共享、电子商务和即时通信等诸多领域,目前已经成为计算机网络技术研究领域一个热点。由于P2P网络的动态性、自治性以及异构性等特
随着Web服务技术的快速发展,越来越多的稳定易用的Web服务共享在网络上,但是单个Web服务的功能一般比较简单,很多情况下不能满足用户的实际需要,为了更加充分地利用这些共享
随着云计算的应用和发展,数据中心规模的扩大,随之而来的是数据中心的能耗、资源利用率等问题日益突出。因此,设计高效的资源分配策略,提高数据中心的资源利用率,降低数据中
随着计算机网络技术的飞速发展、网络应用的不断丰富,各种网络环境逐步发展起来,如高速网络、无线网络、卫星网络等,其中大规模应用在互联网主干网络中的高带宽时延网络(High
语音情感识别是近年的热门研究领域之一,是人工智能、模式识别、语音信号处理与情感计算的交叉学科产物,在智能机器、人机交互、远程教学、刑事侦探、产品设计等各个方面都有
简单网络管理协议SNMP由于其简单实用性被广泛应用于网络管理领域,然而由于SNMP本身的局限性,它主要应用于性能管理和故障管理,而很少应用于配置管理领域。为了弥补SNMP协议
随着网络技术的飞速发展,网络规模、复杂性、异构性逐渐增强。网络管理逐渐从单纯的网络资源管理扩展到较为复杂的网络系统资源管理。这些发展极大的改变了网络的规模和结构,
目前,随着Web服务技术的不断推广与应用,面向服务的计算已经成为软件工程领域的研究热点。通过重用现有服务,将服务进行组合,企业能够更为快速有效的构建具有灵活、松耦合特
语料库与自然语言信息处理有着相辅相成的关系,语料库是用统计语言模型方法处理自然语言的基础资源,它的建设和应用一直是语言处理领域的重要论题之一。目前我国在中文语料库