论文部分内容阅读
得益于计算机技术的逐渐成熟以及整个社会科技力的提升,人们的生产和生活与互联网的结合也变得更加密切。对于企业来说也享受到了这些信息化、数字化发展带来的利处。换句话说,数字化、信息化的办公系统决定了企业运行的效率,是企业生存发展的重要支撑。特别是对于一些中、大型企业,如果不能充分利用这些数字化的信息将其转变为可用资源,就会大大增加企业运行的生产成本,降低生产效率。从另一方面来说这些数字化、碎片化的海量讯息,如果运用得当也必将成为新时代兴企业的数据载体和动力源泉。那么如何才能够有效、准确的对于散落在企业的各个角落信息资源进行充分挖掘呢,如何才能够让企业员工从繁琐的搜寻信息的困境中解放出来,能够让办公人员准确、快速的查询到符合自己关切点的信息,这就是搜索引擎技术所要解决的问题。为此越来越多的企业将搜索引擎技术引入信息化平台构建的需求中来,针对于企业的检索平台开发也成为各大互看网科技公司的角力点。为了能够更加深入的了解当前企业信息检索技术中面临的困境,本次论文研究定位于开发一款适用于企业的全文搜索引擎系统。经过大量的查阅资料和实地调研,选取了开源的Lucene作为设计的核心架构,并结合当前检索技术领域优秀的算法思想,对Lucene二次开发、扩展,期间的主要工作和研究内容如下:第一,对目前企业搜索引擎技术现状进行调研,分析国内外的现状。学习搜索引擎技术开发的相关知识包括:倒排索引技术、中文分词技术、文本解析技术等。第二,深入探究Lucene工作的本质、原理。针对Lucence的基础检索模型中的不足之处,从文档排序算法和索引结构优化两个方面给出了改进思路包括改进后的Lucene排序公式以及优化后Lucene索引结构。第三,对于企业搜索引擎的各个模块分层设计,最终搭建好本次研究课题的的企业全文搜索系统平台,并给出了实验测试数据和结果。