基于Lucene的站内搜索引擎技术的研究与应用

被引量 : 9次 | 上传用户:wtmw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的快速发展,网络上的信息资源正以惊人的速度增长。出于信息化建设的需要,大量企事业单位都建立了自己的网站,以便向人们提供信息服务,以提高企业的知名度和服务质量。随着时间的推移,许多网站中存储了大量的信息,但是,相当多的网站没有自己的站内搜索引擎系统,这就有可能造成用户无法快速找到自己感兴趣的信息。尽管一些大型的web搜索引擎也向用户提供站内检索的功能。例如Google、百度、雅虎都向Web站点提供了支持站内搜索的机制。但是由于Web搜索引擎收录的Web页面只占因特网中可收录页面的三分之一左右,同时Web搜索引擎通常是经过一个固定的周期才刷新其收录的页面,这必然导致采用Web搜索引擎作为其站内搜索引擎的站点,其搜索结果质量差、不精确、更新慢、不能及时显示站内信息。因此,对于这些没有提供站内信息检索系统的网站,建立自己的站内信息检索系统成为了当务之急。在对搜索引擎系统、全文检索技术和Lucene开源工具包进行了深入研究的基础上,本文设计并实现了一个基于Lucene的站内搜索引擎系统。文中详细介绍了站内搜索引擎系统的需求分析、系统的整体组织架构、系统实现的开发工具以及系统各个功能模块的详细设计和具体实现。该系统包括四个功能模块——信息采集模块、构建索引模块、搜索模块和人机交互界面模块。信息采集模块是搜索引擎的核心组成部分,其作用是用来采集指定站点的文档信息,以便索引模块建立索引;信息采集功能通过网络爬虫(crawler)按照一定规则遍历web站点,并将访问到的信息资源下载到本地服务器。网络爬虫的性能在一定程度上决定了搜索引擎系统的搜索效果、信息是否及时更新、内容是否丰富等。本文设计了一个多线程网络爬虫,用于系统信息的采集。构建索引是搜索引擎的重要环节,索引质量的好坏决定了搜索结果的质量和搜索的效果;本文以Lucene为基础设计了个可以索引HTML Word Excel、Powerpoint等多种格式数据源的索引框架,并详细分析了构建索引的流程、文档解析的流程。当索引文件建立后,搜索模块便可为用户提供检索服务。基于简洁易用的原则,设计了站内搜索引擎系统的两个Web界面——搜索界面和搜索结果展示界面。在站内搜索引擎系统的设计和开发过程中坚持面向对象的设计原则,系统的实现过程中坚持良好的编码规范,以便日后对系统的扩展和二次开发。实验表明,该站内搜索引擎系统能够满足站内信息检索的需要,并具有良好的检索效率和检索性能。
其他文献
企业信誉缺失问题是现实经济体系运行中遇到的重要问题,中国经济活动中存在大量的失信现象,阻碍着我国经济的发展。因此,很有必要对企业信誉缺失问题进行理论的分析和系统的
小额信贷自1993年引入我国以来,随着发展模式的不断完善,不仅在完成扶贫目标方面表现突出,而且也在金融创新领域成绩斐然。近二十载的成就证明了小额信贷对我国农村经济发展
金属柱壳破坏过程与材料、结构及载荷等相关,断裂结果呈现多种形式,采用有限元结合实验对不同爆炸载荷作用下,TA2钛合金圆管的破坏机制开展研究。有限元结果显示:对于理想均质
创新药物临床试验旨在为药物上市提供安全有效的依据,涵盖了临床药理学研究、剂量探索性临床治疗试验和确证性临床治疗试验,其中暴露量-效应关系研究已经成为临床研究的核心
近年来义务教育的均衡发展问题成为全社会关注的热点问题,我国实行“以县为主”的义务教育管理体制,以县域为基础对义务教育均衡发展状况进行评估被提上日程。县域义务教育均
目的:对氯诺昔康口腔崩解片的处方及制备工艺进行研究,并评价其质量。方法:以片剂崩解时限、口感为指标,采用正交试验设计优化处方。通过直接压片法制备氯诺昔康口腔崩解片,
焊缝自动跟踪是实现焊接过程自动化的关键环节。与传统的以声学、电池技术为基础的焊缝测量方法相比,激光传感技术凭其精度高、信息量大、远距离、非接触测量等特点备受关注,
中国化妆品业经过改革开放后近三十年的发展,始终处于快速增长态势。目前,行业内企业众多、业态复杂、竞争激烈,虽然各种市场机会层出不穷,但存在的问题也很多。因此,如何在
<正>~~
期刊
语言是文化的载体,是一个民族的文化根基。在全球化的竞争中,语言优势常被用来传播价值观念,提升国家软权力,谋求国家文化利益。语言优势的获得依赖于推动语言教育的纲领性文