基于Lucene异构数据源搜索引擎的研究与设计

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:jason008_xu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今时代是信息爆炸的时代,为了在庞大的信息资源中找到真正需要的信息,搜索引擎应运而生。搜索引擎以一定的策略在互联网中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务。搜索引擎的中文分词模块,索引效率和快速搜索功能对搜索引擎快速开发和性能优化都有重要意义。  本文首先详细分析了全文搜索引擎工具包Lucene的系统结构和相关技术。Lucene提供了一套简单却十分强大的核心API,可以快速将它集成到应用程序中。接着对搜索引擎的基本工作原理,处理流程和相关技术作了进一步分析。然后,本文重点阐述基于Lucene搜索引擎中的中文分词模块和索引搜索模块的设计。在基于Lucene的搜索引擎中添加基于字符串匹配的正向最大匹配分词法的中文分词模块,能够使此搜索引擎具有很好的中文处理能力。在对索引模块和搜索模块进行设计的时候,采用了Lucene项目的相关类,缩短开发周期,并在短时间内获得较好的索引质量和搜索效率。最后实现了异构数据源搜索引擎系统,详细说明了其主要模块的实现及相关功能,并阐述其在数字图书馆领域的扩展应用。  数字图书馆是当前快速发展的领域,如何对数字资源进行有机地整合,成为数字图书馆建设的重要任务,也是信息资源管理领域的一个重要的研究课题和函待解决的问题。本文对数字图书馆的建设和发展进行了较为深入的探讨和研究。本文成功开发异构数据源搜索引擎系统,实现异构数据源海量元数据检索和检索排序,对数字图书馆建设发展意义重大。
其他文献
自动人脸识别技术(Automatic Face Recognition Technology)是近年来计算机视觉、图像处理、模式识别以及人工智能等领域研究中一项极富挑战性的研究课题。本论文正是结合相
异步电机的直接转矩控制(DTC)技术以其思路新颖、控制方案简单及性能优越等特点受到人们的普遍重视。本文对异步电机的数学模型进行详细研究,并构建了直接转矩控制仿真系统,对直接转矩控制方法的特点及其存在的问题进行深入的理论和仿真研究。作为一种高性能的交流调速系统,在直接转矩控制系统中,速度调节器通常都采用PI调节器,使得系统的快速性、抗干扰能力及对系统参数扰动的鲁棒性不够理想。本文设计了一个基于滑模变
二十一世纪是信息经济的时代,网络成为各项信息交流的热门手段。工业以太网以其独特的优点成为工业控制领域公认的21世纪控制网络的最佳解决方案。目前,基于以太网的工业控制
语音交流是最方便简单的通讯手段,但现实中的语音却会不可避免地受到环境噪声的影响。语音信号前端处理就是针对染噪语音信号所进行的包括端点检测和语音增强等有效手段。它
随着生物工程技术的迅速发展,发酵工业越来越受到科技界、生物界的重视,对发酵工业过程的自动控制的要求也越来越迫切[1]。基于实验数据进行建模、参数估计以及对过程的仿真
井筒内壁变形监测是井筒变形灾害防治的重要前提。针对目前井筒变形监测精度差、效率低的缺陷,研发了一款井筒内壁快速成图系统。系统包含硬件和软件两个部分。其中硬件系统