基于ProActive的分布式并行网页索引器的研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:feifeifo123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎是人们检索互联网信息的一个重要工具。它由爬行器、索引器、查询器等3个部分组成。网页索引器是建立搜索引擎的一个关键组成部分,它负责对网页爬行器抓取下来的网页进行索引。目前商业搜索引擎大部分采用倒排索引模型。由于现在的网页数据是海量数据,对它们建立倒排索引是一个十分耗时的计算。另一方面,网页内容是不断更新,需要周期性的爬行互联网并重建倒排索引。串行倒排索引算法难以满足海量级网页数据的快速索引要求。由PC机构成的异构机群计算系统具有高性能、低成本、可扩展性好和易于实现等特点,因此,在异构机群计算系统上,设计出高效、实用的建立网页倒排索引的并行算法,实现一个分布式并行网页索引器,对于建立高性能的搜索引擎有重要的意义。   针对建立网页集倒排索引的串行算法完成时间长的不足,根据归并排序的性质满足可分负载理论的特性,提出一个基于三元组排序一归并的分布式并行算法。将解析出来的术语用一个三元组表示,分布式并行处理网页中术语的解析和术语记录三元组的多步归并排序计算两步。在机群计算系统上,应用基于Java的分布式并行计算中间件ProActiVe,设计和实现了一个基于该并行算法的名为P_Indexer的分布式并行网页索引器。算法分析和实验结果表明,该并行算法有较高的效率性和可扩展性。   针对异构机群系统中从处理机节点具有不同的计算能力、通信速率的情形,考虑通信启动开销和传输数据时间,根据基于三元组排序一归并的建立网页倒排索引的并行算法满足可分负载理论的特性,提出一个建立网页倒排索引的并行算法的网页文本最优分配的线性规划模型,给出网页文本集的最优子集值,讨论了处理机的最优分配顺序。基于文本最优分配策略的建立网页倒排索引并行算法的耗时分别比文本按平均分配、按从处理机能力分配的并行算法耗时缩短约14%-19%he%-8%。
其他文献
随着科学技术的发展以及计算机网络技术的普及,分布式数据库系统逐渐取代了集中式数据库系统,走进我们的生活中。然而伴随着分布式数据库系统的广泛应用,其所涉及的查询效率
在计算机图形学中,水波模拟是一个有意义并且具有挑战性的课题。要得到逼真的水波动画,关键的工作在于模拟水波的运动形态。本文的主要工作有:首先介绍了水波模拟的研究背景与意
学位
双结构新型网络以传统TCP/IP网络为主结构,添加以异步广播通信为基础的“播存环境”作为次结构,来缓解当前互联网面对的流量高度冗余、内容难以监管等问题。播存环境通过“统
无线传感器网络是由部署在监测区域内的大量节点通过自组织和协调而形成的多跳网络系统,节点间通过相互协作来完成网络监控任务。在无线传感器网络中,介质访问控制协议(Mediu
层次细节(LOD,Level of Detail)技术的研究是随着三维可视化技术的不断发展而开始的。Clark最早提出了层次模型的概念,层次模型的自动建立过程被称为模型简化。此后出现了大
学位
网格是网络发展的必然产物,同时也是网络分布式并行计算的重要支撑平台。伴随着网格技术的进步和发展,网格用户对网格系统的服务质量(QoS)提出了更高的要求。由于网格中的资
学位
随着汽车电子嵌入式技术的迅速发展和广泛应用,汽车电子对嵌入式操作系统的需求也越来越紧迫。在我国,汽车电子嵌入式操作系统开发起步较晚,且技术难度较大,已经成为制约我国汽车
学位
随着Internet的迅速发展和不断普及,Web日志资源越来越多,而如何利用这些海量数据来更好的为用户服务成为当今的研究热题。Web日志挖掘把传统的数据挖掘技术应用到Web日志中,
随着办公自动化系统的广泛应用、原始数据的大量积累,使得很多高校开始关注于数据综合利用和管理问题,这些高校自身不具备较高程度的数据综合利用能力,而这些数据却又复杂的存在
随着嵌入式技术和虚拟仪器技术的不断融合,嵌入式虚拟仪器的应用日益广泛,研究一种高效的嵌入式虚拟仪器的开发方法就显得迫切而重要。可重构技术是指器件可以根据情况对自身