论文部分内容阅读
伴随着企业信息化进程的加快,信息搜索与查询技术已经成为影响企业综合效率的关键因素。企业数据每年以200%的速度增长,其中80%的数据以文件、邮件等非结构化数据存放在企业内计算机系统的各个角落。面对这些,当万维网搜索开始束手无策的时候,无论是公司高层还是基层员工都在憧憬有自己的搜索工具,而企业级搜索引擎技术正是为了适应这种需求而诞生的。
本文对搜索引擎技术进入了深入的研究,在开源的检索工具库Lucene提供的简单且强大的API基础上,在企业异构的数量来源和分布式检索需求的环境下构建了一个企业级的搜索引擎系统,包括了检索子系统、日志子系统、预处理子系统、内容收集子系统、本地文件处理子系统、管理子系统等,其中核心模块为收集子系统、预处理子系统、检索子系统。
本文的主要贡献有:
1.对比了企业级搜索和通用搜索,指出企业级搜索面临的挑战和存在的优势。
2.重点关注了比较普遍的互联网数据、数据库数据和其它非结构化零散文本数据,利用Lucene提供的API,成功的将异构数据源数据建立了分布式的索引库,并提出了通过数据差异表进行数据库索引和文件索引增量更新的方法,提高了索引的时效性和效率。采用多个开源项目的成果对富媒体格式的资源进行了文本内容提取,提高了信息的多样性,适应了企业应用的需求。
3.提出了检索中心、检索代理以及二者之间的通信和管理模块这三部分组成的检索子系统架构,来实现分布式检索的功能,使系统具有良好的扩展性。
4.在Lucene提供的检索结果排序函数的基础上,通过调整相关参数,改进了排序结果以适应企业应用,实现了对异构资源检索结果的相关度排序。
本文所实现的企业级搜索引擎系统已成功的应用到中国电信“114号码百事通”核心搜索部分中,为电信用户提供多元化信息查询等相关增值服务,给号码百事通带来了一种全新的商业模式。