数据中心多源搜索引擎的研究与实现

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:bhc880913
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
番禺数据中心通用数据同步平台是一个电子政务项目,作为对各种业务数据的采集、保存、处理和分发的基础数据交换支撑平台,已经具有了结构化和非结构化数据的同步功能,收集了大量的信息。如何在浩如烟海的数据中迅速定位到所需的信息,而不浪费宝贵的时间资源,需要一种灵活、自由和即时查询的方式,准确的找到我们需要的信息。 全文检索是搜索引擎的核心技术,本文对全文检索相关的实现原理、核心技术和处理流程做了全面分析,对全文检索的关键技术——中文分词——作了深入研究,并给出了一种改进的分词算法。 本文开发的搜索引擎基于一种全文检索引擎工具包——Lucene。Lucene是一个高性能、可伸缩的信息搜索(IR)库。它可以为应用程序添加索引和搜索能力。作为一个开源软件,它为我们学习搜索引擎的核心技术提供了绝佳的机会,对其剖析研究、进行二次开发,是一件很有意义的事情。 现实世界中纯文本格式的文档正处于逐渐减少的趋势。取而代之的是,越来越多的信息以非纯文本文档格式呈现。除了纯文本格式以外,我们需要能够方便的查找到所需的各种各样格式的文件。 Lucene并不关心数据的来源、格式甚至它的语言,只要你能将它转换为文本。这就意味着你可经索引并搜索存放于文件中的数据:在远程服务器上的web页面,存于本地文件系统的文档,简单的文本文件,微软Word文档,HTML或PDF文件或任何其它能够提取出文本信息的格式。同样,利用Lucene你可以索引存放于数据库中的数据,提供给用户很多数据库没有提供的全文搜索的能力。本文的另一个工作就是将各种常见的富文本格式文件解析成Lucene能理解的文本信息的格式。 文章分六个部分,第一部分介绍本文的研究背景,研究课题的来源以及成果和创新;第二部分介绍了全文检索的分析与设计,介绍了全文索引的概念、基本原理及总体设计;第三部分着重对全文检索的关键技术:中文分词算法做了详细的介绍,并提出一种改进的分词算法;第四部分详细介绍了全文检索引擎工具包:Lucene;第五部分详细讨论了数据中心多源搜索引擎的设计与实现;第六部分是本文的结论。
其他文献
“国家岩矿化石标本资源信息网站设计与应用”是国家科技部基础性项目,作为国家自然资源主要平台之一,国家岩矿标本化石资源信息网最主要的目的是抢救我国的岩矿化石标本资源
本文旨在为P2P电子商务应用提供完整高效的中间平台,并以此降低应用与底层技术之间的耦合。提出了P2P电子商务中间件模型PEC(P2P E-Commerce),并以JXTA为基础实现了PEC的主体框
随着互联网技术的飞速发展,基于互联网的各种应用应运而生,其中Web应用是Internet上最有活力的一个部分,能够实现全球范围内的信息共享,其用户数目众多。但是由于Internet由多种
以软交换为核心的下一代网络采用分层、开放的体系结构,打破了传统电信网封闭的格局,通过将业务与控制分离、控制与承载分离来实现相对独立的业务体系,使得上层业务与底层的异构