论文部分内容阅读
在Web服务技术中,UDDI注册中心作为Web服务发布、发现和交流的平台,起到了联系用户和Web服务发布者的桥梁作用,随着公共UDDI注册中心的陆续关闭,越来越多的服务提供者倾向于使用非注册的方式直接将服务发布在各自的网站上。因此Web服务的部署有更加分散的趋势,导致用户搜索和发现感兴趣的Web服务变得更加困难。在这种形势下,利用搜索引擎技术来发现Web服务的研究开始成为最近的一个热点。从Web服务概念的提出到现在已经有十多年的时间,随着Web服务的广泛应用,也暴露出了越来越多的问题。与此同时,基于Rest风格的Web服务可以在继承传统Web服务优势的同时有效的解决的传统Web服务所面临的缺陷,受到了越来越多的企业和研究者的重视和关注,Web API则是一种典型的Rest风格的Web服务。现阶段,已开放的Web API越来越多,但相对互联网还十分分散,如何将已发布的Web API尽可能多的搜集起来供开发者使用,是一个很具有实际意义的研究问题。Map/Reduce是一个面向分布式的编程模型,设计实现了一个能够在多计算节点环境下计算和存储超大规模数据集的算法,通过使用Map/Reduce技术能够在普通的PC集群上方便快捷的部署分布式应用程序,有效提高搜索引擎的系统性能和工作效率。本文主要工作如下。1.提出了基于Map/Reduce的分布式Web服务搜索引擎的体系架构,并对相关的模块做出了详细的介绍。2.利用Map/Reduce技术将整个系统构建在Hadoop框架上,充分发挥了计算机集群强大的计算和数据存储能力,实验证明本系统在抓取Web服务效率上明显好于传统集中式Web服务搜索引擎。3.通过研究Web服务在互联网上的分布情况,提出了一种多粒度待抓取URL优先级算法,实验证明,多粒度待抓取URL优先级算法可以提高搜索引擎的工作效率。4.通过对已经获取的部分Web API描述文档的分析和研究,提出了一种针对Web API描述文档的垂直搜索分析算法,通过实验,验证了利用网络蜘蛛技术在互联网上搜索和抓取Web API描述文档的可行性。