论文部分内容阅读
在信息化飞速发展的今天,企业、政府、学校等组织的内存在多种信息源。在这种状况下,能在组织内更快、更准确地搜寻自己需要的信息具有现实的意义。研究和实现企业级搜索引擎的性能优化技术,将使得各个组织能以较小的硬件投入支持较高的的性能,实现对企业内外部数据的高效获取和有效组织。
本文设计并实现了一套并行检索子系统,实现了适合于多机协同计算的并行索引查询算法。该系统由多个Index Server节点、一个Broker节点构成,这两种计算节点互相配合,协同完成用户提交的查询请求。通过并行计算,提高系统的性能及能处理的数据量。考虑了Index Server失效给系统带来的影响,提出了混合的冗余备份机制,不同的冗余备份策略的组合,能很好地解决Index Server失效的问题,同时也能提高系统的吞吐量。
本文还基于已有的木棉检索系统,设计并实现了基于Map/Reduce计算框架的并行索引构建算法和并行索引消重算法。通过Map/Reduce框架加快索引的构建和消重的过程。此外基于木棉搜索引擎数据采集子系统的实现,设计了并行检索子系统索引更新的策略。
本文对Map/Reduce并行计算框架和并行检索子系统进行了完整的性能测试,在对检索子系统的测试中着重考察了以下各方面:系统可扩展性、系统的吞吐量、数据量的影响、冗余结构性能、并行架构开销、Cache对系统性能的影响。实验数据表明相对于单机系统,本文中所用的并行检索结构能有效降低系统的响应时间,提高系统能处理的数据量,增大系统的吞吐量。
最后,本文基于实验数据对并行体系结构带来的额外时间开销的构成情况进行了讨论,并阐述了Broker端缓存对系统整体性能的影响。