基于Nutch框架下的中小型网络开源搜索引擎的研究与应用

来源 :贵州大学 | 被引量 : 0次 | 上传用户:wf136156491
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网信息技术的不断发展,各种基于企业和政府内网的B/S应用不断涌现。这些应用由于各种原因如安全、保密等因素不对外网开放,但同时又积累了大量的数据。如何让用户快速有效地从这些数据中获得想要的信息为越来越多研究者所关注,针对这些内网应用的搜索引擎功能也就应运而生。  本文首先对搜索引擎的原理、系统结构等方面做了分析与介绍,然后结合Nutch开源搜索引擎框架,对搜索引擎涉及到的一些关键技术进行了研究与分析。在此基础上本文完成了以下几方面的工作:  1、针对内网环境下多站点信息分布的特点,本文分析了内网站点之间的内容相关度(Relevance)、重要性(Authority)以及页面之间指出的超链和新颖程度等因素,改进了原有Nutch爬虫的算法与爬行策略,从而提高了Nutch爬虫在内网环境下对多站点信息的搜集处理能力。  2、本文采用了Lucene全文索引库来存储信息,并利用其完成了检索功能模块的设计,然后针对内网索引数据量小,用户类型多的特点对检索进行了优化,从而达到了降低索引存储时间,提高用户检索速度的效果。  3、本系统前台搜索功能使用了J2EE框架下的MVC分层模式来进行设计开发。设计中首先使用Nutch插件获取索引数据并建立模型层,然后结合Nutch的API与用户信息模型来开发业务层,最终将搜索结果通过视图层展示在前台。另外系统分别从索引、检索、Web等层面进行缓存,加快了用户的响应与搜索体验。  4、本系统通过基于用户的Web访问信息挖掘技术实现了搜索结果的个性化。本文针对不同的用户群建立了不同的用户模型,改进了Lucene的排序方法,实现了不同部门不同职位的用户查询到更接近其部门或职位的特征的查询结果。  通过以上几方面的工作,本系统实现了一个针对中小型网络的开源搜索引擎的功能,对搜索引擎进行了一次实践与创新。
其他文献
计算机软件的广泛运用,大大提高了社会生产力,同时也带来了诸多安全问题。特别是近年来移动互联网的飞速发展,安卓智能手机和Java语言的使用越来越多,安卓系统的开放性导致大
DDoS攻击攻击力强、破坏性大,是网络安全最主要的威胁之一。DDoS攻击通过占领大量网络主机形成巨大的攻击流量,对攻击目标进行攻击,消耗被攻击目标的网络带宽资源和系统资源,致其
智能视频监控技术是视觉计算领域一个前沿和热点的研究课题,在军用和民用领域都具有重要的应用价值。本文针对其在物品安全方面的应用,对运动目标跟踪和偷窃/遗弃物体检测两
伴随着Web2.0技术的发展,以Del.icio.us和Flickr为代表的社会化标注类网站迅速崛起,在这些网站上,用户首先需要注册获取一个用户名,随后就可以发布并标注自己的资源,同时也可
SAN(存储区域网络)存储系统具有高速和高扩展性的特点,近些年来,越来越多的单位和机构选择SAN来构建核心数据的信息存储中心,SAN存储系统安全的重要性日益凸显,因此,有关SAN
数据仓库技术作为信息技术领域一个主要的研究领域已经有很多关于这方面的研究成果。早期,数据仓库的研究工作都是建立在关系型数据库的基础上,即,数据仓库的构建都是基于一
人流统计在交通、商业等方面有着广泛的应用,随着计算机视觉技术的发展与成熟成为一个研究热点。基于计算机视觉的人流统计方法具有场景获取方便、检测范围大、易与监控系统融
随着触摸屏手写技术的不断提高,集数字文具和数字教具于一体的文字书写学习系统的研究开发,不但是技术发展的必然,也可为两型社会的建设作出重要贡献。开发具有教具功能的规
在过去的十几年中,随着生命科学的迅猛发展,各种相关的数据呈现爆炸式增长,互联网上涌现出了大量的生物信息数据库及数据分析工具。生物学家和生物信息学家在实施数据检索或
近年来,计算机视觉等理论的发展给视频编码的研究工作带来了新的启发。从主观评价角度出发,根据人的视觉特性重点关注视频中的特定区域的信息、提高编码效率和编码结果的质量