Nutch搜索引擎中网页排序技术的研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:terrychou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的不断发展,搜索引擎已经成为人们获取网络信息的主要工具。研究搜索引擎网页排序的目的是从众多搜索结果中将内容相关和权威的网页排在前面,帮助用户迅速定位需要的网络资源。网页排序算法直接影响到搜索引擎信息检索的准确率和用户使用满意度。Nutch是基于Java实现的开源搜索引擎。通过对Nutch进行深入研究,指出其目前存在的两大问题,其一是没有实现PageRank算法,影响了最终排序效果;其二是对中文进行单字切分,影响了查询结果准确率。   首先,针对目前Nutch搜索引擎中没有实现网页PageRank计算的问题,利用MapReduce并行计算模型处理大数据集的优势,在Nutch机群系统上设计和实现了基于MapReduce的PageRank分布式并行算法。实验结果表明:处理的数据量越大,机群中的节点越多,计算PageRank的效率越高;另外,该分布式并行算法具有较好的可扩展性。然后,针对目前Nutch对中文进行单字切分的问题,加入了JE中文分词器对Nutch的中文分词进行改进。在分析和研究经典PageRank算法原理的基础上,通过设置控制站外与站内链接的比重因子对该算法进行了改进。为了改善Nutch基于Lucene的网页综合排序模型,将改进后的PageRank算法因子融入到Nutch网页评分计算公式当中。实验表明,改进后Nutch明显提高了查询结果的准确率,改善了中文网页的排序效果。
其他文献
随着Internet技术的快速发展,基于B/S结构的高校教务管理系统如何在使用过程中避免非法修改、事后否认、非法截取等行为已经直接威胁到高校教务系统的使用安全。现代密码理论
学位
随着互联网时代的飞速发展,广告载体逐渐由传统的报刊、杂志等媒介向网络转移,计算广告由此衍生出来。根据广告展现给用户的形式,可以将其分为展示广告和搜索广告,本文只对搜索广
21世纪,“互联网+”已经成为社会的热点话题,而“互联网+医疗”正是政府积极推广的新型在线医疗卫生模式,其中包含了构建电子病历等重要举措,大量的医疗信息数据随之产生。电
随着数据库和网络技术的飞速发展,大量的异构数据源应运而生。随着对信息综合利用需求的进一步提高,人们迫切希望解决这些异构数据源的集成问题。中间件技术的发展使得硬件平
三维真实感地形和自然景观的可视化是虚拟现实及可视化技术的基本组成部分,然而,庞大的数据在图形显示硬件有限的条件下不能很好的实时显示和处理。三维地形可视化通常包括地
局部特征描述子以编码的方式来描述图像局部信息,是图像处理技术中的一种基元特征,广泛应用于图像分割和三维重建等领域。随着手机等移动设备的快速普及,其上运行的计算机视
随着微传感器技术、无线网络技术和嵌入式处理技术的发展,无线传感器网络(Wireless Sensor Networks,简称WSNs)吸引越来越多的科研人员对其展开研究,并极大地方便了人们的生
目前,在视频分析和处理过程中,运动物体的实时检测和轮廓跟踪已经逐渐成为计算机视觉分析和识别的关键技术。尤其是人体运动分析的研究在人体动画、游戏、虚拟现实和增强现实
随着网络信息数据的急剧增加,因特网上信息量的日益扩大,人们在信息获取方面的要求也越来越高。语义网的出现为计算机提供了可理解的语义信息环境,计算机可以用基于语义的信
学位