论文部分内容阅读
当今时代是信息爆炸的时代,为了在庞大的信息资源中找到真正需要的信息,搜索引擎应运而生。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务。搜索引擎的中文分词模块,索引效率和快速搜索功能对搜索引擎快速开发和性能优化都有重要意义。 本文首先详细分析了全文搜索引擎工具包Lucene的系统结构和相关技术。Lucene提供了一套简单却十分强大的核心API,可以快速将它集成到应用程序中。接着对搜索引擎的基本工作原理,处理流程和相关技术作了进一步分析。然后,本文重点阐述基于Lucene搜索引擎中的中文分词模块和索引搜索模块的设计。在基于Lucene的搜索引擎中添加基于字符串匹配的正向最大匹配分词法的中文分词模块,能够使此搜索引擎具有很好的中文处理能力。在对索引模块和搜索模块进行设计的时候,采用了Lucene项目的相关类,缩短开发周期,并在短时间内获得较好的索引质量和搜索效率。最后实现了异构数据源搜索引擎系统,详细说明了其主要模块的实现及相关功能,并阐述其在数字图书馆领域的扩展应用。 数字图书馆是当前快速发展的领域,如何对数字资源进行有机地整合,成为数字图书馆建设的重要任务,也是信息资源管理领域的一个重要的研究课题和函待解决的问题。本文对数字图书馆的建设和发展进行了较为深入的探讨和研究。本文成功开发异构数据源搜索引擎系统,实现异构数据源海量元数据检索和检索排序,对数字图书馆建设发展意义重大。