论文部分内容阅读
番禺数据中心通用数据同步平台是一个电子政务项目,作为对各种业务数据的采集、保存、处理和分发的基础数据交换支撑平台,已经具有了结构化和非结构化数据的同步功能,收集了大量的信息。如何在浩如烟海的数据中迅速定位到所需的信息,而不浪费宝贵的时间资源,需要一种灵活、自由和即时查询的方式,准确的找到我们需要的信息。
全文检索是搜索引擎的核心技术,本文对全文检索相关的实现原理、核心技术和处理流程做了全面分析,对全文检索的关键技术——中文分词——作了深入研究,并给出了一种改进的分词算法。
本文开发的搜索引擎基于一种全文检索引擎工具包——Lucene。Lucene是一个高性能、可伸缩的信息搜索(IR)库。它可以为应用程序添加索引和搜索能力。作为一个开源软件,它为我们学习搜索引擎的核心技术提供了绝佳的机会,对其剖析研究、进行二次开发,是一件很有意义的事情。
现实世界中纯文本格式的文档正处于逐渐减少的趋势。取而代之的是,越来越多的信息以非纯文本文档格式呈现。除了纯文本格式以外,我们需要能够方便的查找到所需的各种各样格式的文件。
Lucene并不关心数据的来源、格式甚至它的语言,只要你能将它转换为文本。这就意味着你可经索引并搜索存放于文件中的数据:在远程服务器上的web页面,存于本地文件系统的文档,简单的文本文件,微软Word文档,HTML或PDF文件或任何其它能够提取出文本信息的格式。同样,利用Lucene你可以索引存放于数据库中的数据,提供给用户很多数据库没有提供的全文搜索的能力。本文的另一个工作就是将各种常见的富文本格式文件解析成Lucene能理解的文本信息的格式。
文章分六个部分,第一部分介绍本文的研究背景,研究课题的来源以及成果和创新;第二部分介绍了全文检索的分析与设计,介绍了全文索引的概念、基本原理及总体设计;第三部分着重对全文检索的关键技术:中文分词算法做了详细的介绍,并提出一种改进的分词算法;第四部分详细介绍了全文检索引擎工具包:Lucene;第五部分详细讨论了数据中心多源搜索引擎的设计与实现;第六部分是本文的结论。