基于Lucene的站内搜索引擎技术的研究与应用

被引量 : 9次 | 上传用户：wtmw

【摘要】

：

随着互联网技术的快速发展,网络上的信息资源正以惊人的速度增长。出于信息化建设的需要,大量企事业单位都建立了自己的网站,以便向人们提供信息服务,以提高企业的知名度和服

【作者】

：

戚学磊

【发表日期】

：

2011年01期

【关键词】

：

搜索引擎全文检索 Lucene 构建索引

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网技术的快速发展,网络上的信息资源正以惊人的速度增长。出于信息化建设的需要,大量企事业单位都建立了自己的网站,以便向人们提供信息服务,以提高企业的知名度和服务质量。随着时间的推移,许多网站中存储了大量的信息,但是,相当多的网站没有自己的站内搜索引擎系统,这就有可能造成用户无法快速找到自己感兴趣的信息。尽管一些大型的web搜索引擎也向用户提供站内检索的功能。例如Google、百度、雅虎都向Web站点提供了支持站内搜索的机制。但是由于Web搜索引擎收录的Web页面只占因特网中可收录页面的三分之一左右,同时Web搜索引擎通常是经过一个固定的周期才刷新其收录的页面,这必然导致采用Web搜索引擎作为其站内搜索引擎的站点,其搜索结果质量差、不精确、更新慢、不能及时显示站内信息。因此,对于这些没有提供站内信息检索系统的网站,建立自己的站内信息检索系统成为了当务之急。在对搜索引擎系统、全文检索技术和Lucene开源工具包进行了深入研究的基础上,本文设计并实现了一个基于Lucene的站内搜索引擎系统。文中详细介绍了站内搜索引擎系统的需求分析、系统的整体组织架构、系统实现的开发工具以及系统各个功能模块的详细设计和具体实现。该系统包括四个功能模块——信息采集模块、构建索引模块、搜索模块和人机交互界面模块。信息采集模块是搜索引擎的核心组成部分,其作用是用来采集指定站点的文档信息,以便索引模块建立索引；信息采集功能通过网络爬虫(crawler)按照一定规则遍历web站点,并将访问到的信息资源下载到本地服务器。网络爬虫的性能在一定程度上决定了搜索引擎系统的搜索效果、信息是否及时更新、内容是否丰富等。本文设计了一个多线程网络爬虫,用于系统信息的采集。构建索引是搜索引擎的重要环节,索引质量的好坏决定了搜索结果的质量和搜索的效果；本文以Lucene为基础设计了个可以索引HTML Word Excel、Powerpoint等多种格式数据源的索引框架,并详细分析了构建索引的流程、文档解析的流程。当索引文件建立后,搜索模块便可为用户提供检索服务。基于简洁易用的原则,设计了站内搜索引擎系统的两个Web界面——搜索界面和搜索结果展示界面。在站内搜索引擎系统的设计和开发过程中坚持面向对象的设计原则,系统的实现过程中坚持良好的编码规范,以便日后对系统的扩展和二次开发。实验表明,该站内搜索引擎系统能够满足站内信息检索的需要,并具有良好的检索效率和检索性能。

其他文献

关于企业信誉缺失问题的研究

企业信誉缺失问题是现实经济体系运行中遇到的重要问题,中国经济活动中存在大量的失信现象,阻碍着我国经济的发展。因此,很有必要对企业信誉缺失问题进行理论的分析和系统的

学位

企业信誉产权非正式制度

促进我国农村小额信贷发展的政府经济职能研究

小额信贷自1993年引入我国以来,随着发展模式的不断完善,不仅在完成扶贫目标方面表现突出,而且也在金融创新领域成绩斐然。近二十载的成就证明了小额信贷对我国农村经济发展

学位

农村小额信贷政府经济职能农村金融小康社会

不同爆炸载荷下TA2钛合金圆管膨胀破坏过程

金属柱壳破坏过程与材料、结构及载荷等相关,断裂结果呈现多种形式,采用有限元结合实验对不同爆炸载荷作用下,TA2钛合金圆管的破坏机制开展研究。有限元结果显示：对于理想均质

期刊

金属圆管爆炸加载缺陷有限元

创新药物临床试验中暴露量-效应关系研究的探讨

创新药物临床试验旨在为药物上市提供安全有效的依据,涵盖了临床药理学研究、剂量探索性临床治疗试验和确证性临床治疗试验,其中暴露量-效应关系研究已经成为临床研究的核心

期刊

创新药物临床试验暴露量-效应关系

我国县域义务教育均衡发展评估指标体系的构建

近年来义务教育的均衡发展问题成为全社会关注的热点问题,我国实行“以县为主”的义务教育管理体制,以县域为基础对义务教育均衡发展状况进行评估被提上日程。县域义务教育均

学位

县域义务教育均衡发展评估指标体系校际均衡

氯诺昔康口腔崩解片的制备

目的:对氯诺昔康口腔崩解片的处方及制备工艺进行研究,并评价其质量。方法:以片剂崩解时限、口感为指标,采用正交试验设计优化处方。通过直接压片法制备氯诺昔康口腔崩解片,

期刊

氯诺昔康口腔崩解片正交设计质量评价

基于测量的波纹管跟踪焊接原理与技术研究

焊缝自动跟踪是实现焊接过程自动化的关键环节。与传统的以声学、电池技术为基础的焊缝测量方法相比,激光传感技术凭其精度高、信息量大、远距离、非接触测量等特点备受关注,

学位

波纹管焊缝跟踪测量传感器Baldor运动控制卡

KALAKALA化妆品中国市场经营战略研究

中国化妆品业经过改革开放后近三十年的发展,始终处于快速增长态势。目前,行业内企业众多、业态复杂、竞争激烈,虽然各种市场机会层出不穷,但存在的问题也很多。因此,如何在

学位

经营战略化妆品中小企业

陆子泉的思绪(外一首)

<正>~~

期刊

陆子泉

国家文化利益视角下的中国语言教育政策研究

语言是文化的载体,是一个民族的文化根基。在全球化的竞争中,语言优势常被用来传播价值观念,提升国家软权力,谋求国家文化利益。语言优势的获得依赖于推动语言教育的纲领性文

学位

国家文化利益国家利益语言教育政策语言文化软权力语言战略规划观

基于Lucene的站内搜索引擎技术的研究与应用

与本文相关的学术论文