基于Ajax/Lucene的站内搜索技术研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:shliukan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
站内搜索引擎是找出网站重要信息的必要工具,高效的站内搜索将有助于提升网站的价值,发挥网站应有的作用。虽然现在一些网络巨头已开始研究并应用这类工具,但整个互联网行业中,受制于技术的门槛,真正的站内搜索技术还没有被广泛的普及。因此,研究并开发站内搜索引擎具有重要的现实意义。 本文主要研究与站内搜索相关的技术和方法,主要包括全文检索、Lucene、Ajax、网络蜘蛛、中文分词等内容。在学习研究的基础上,设计并实现了一个站内搜索引擎;测试结果表明,该引擎具有实用价值。 本文第一部分首先阐述了搜索引擎的相关概念,搜索引擎按照技术原理可以分为三类:全文检索引擎、目录搜索引擎和元搜索引擎,本文主要是研究全文检索引擎。国内许多全文检索系统,其实现都是基于关系数据库开发的,或者是使用通用数据库系统提供的全文检索功能开发的,存在查询速度慢和无法处理非结构化数据等很多弊端。所以本文的研究采用了全文索引文件库。 接着,分析了全文检索工具包Lucene的系统结构、数据流、索引格式等等。然后,研究了Ajax框架,Ajax技术的出现正在改变着B/S结构的应用模式,它正在将我们带入到下一代的网络应用之中。系统的前端搜索界面采用了Ajax技术,带来了更好的用户体验。 然后,是本文的主要工作:分析和设计站内搜索引擎系统。对总体架构的搭建、具体分模块的设计进行了详细的分析。接着,对构建站内搜索引擎中的几个关键问题进行了研究与改进。包括:设计出一种适合站内搜索的网络蜘蛛;选用合适的HTML解析器解析出网页中的文本信息;对Lucene自带的中文分词算法进行了改进;对Lucene排序算法做了改进;为了更好的体现出网页各部分内容的比重关系,在系统中引入词频位置加权算法的思想。 最后,我们用Eclipse开发平台,结合几种开源API,实现了Web站内搜索引擎系统。为了使系统界面更加友好、访问速度更快,系统界面设计采用了新技术--Ajax,最后对系统进行了测试。测试结果表明,该站内搜索引擎系统完全能满足对中小型网站的站内搜索要求。
其他文献
作业是教学过程中的一个重要环节,现代教育技术的迅猛发展以及传统作业技术手段的落后使得作业环节技术手段亟待改革。远程作业系统在作业技术手段改革方面进行了有益的尝试,
XML(eXtensible Markup Language)是一种进行数据表示和交换的通用格式,它已在Internet上和企业内部得到了广泛应用。XML模式是XML应用的基础,为了描述XML文档的语法和结构,
随着因特网和无线通信技术的发展,人们需要在任何地方、任何时候都能获得互联网服务。为此IETF(Internet Engineering Task Focre)制定了移动IPv6,在全球互联网范围内提供移动
随着社会经济和信息技术的飞跃发展,决策所涉及的系统越来越复杂,要考虑的参数越来越多,可供选择的策略难以计数,仅仅靠人脑生成策略、进行决策已显得无力。人工智能正处在蓬
建立道路的三维模型是交通勘测领域重要的研究内容,道路网密度的增大使道路养护维修成为重要的基础工作,传统道路养护工作几乎全部依赖人工完成,为了提高道路质量测量效率,相
随着互联网上信息爆炸式的增长,互联网就像是变成了一本没有目录的巨大百科全书,让人们无法找寻自己想要的信息。搜索引擎的出现,为这本百科全书加上了目录和索引。在2004年,
互联网加快了全球化的步伐,企业也加快了信息化建设的步伐,在信息爆炸的时代,资源共享将进一步得到加强,随之而来的信息安全问题也显得越来越重要,成为当今研究的热点。如何
在网络化多层结构的大型应用系统中,软件各层次和网络上数据交互速度快慢是软件性能的关键问题之一。本文针对基于数据库的应用系统,通过分析系统的数据访问特征和系统网络结
物体检测作为一个具有较高挑战性的问题,它的难点主要在于不同类别的物体之间有较大的差异性,即使对同一类物体来说,拍摄视角、物体位置、物体形变等方面的差异也会对检测结
随着信息技术的迅速发展,XML在各个领域的应用越来越广泛,这给XML数据的存储和管理提出了迫切的要求。XML数据是一种半结构化数据,很难直接而有效地存储在关系数据库中。而存