基于Map/Reduce的分布式Web服务搜索引擎研究与实现

来源 :湖南科技大学 | 被引量 : 0次 | 上传用户:qq240927781
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在Web服务技术中,UDDI注册中心作为Web服务发布、发现和交流的平台,起到了联系用户和Web服务发布者的桥梁作用,随着公共UDDI注册中心的陆续关闭,越来越多的服务提供者倾向于使用非注册的方式直接将服务发布在各自的网站上。因此Web服务的部署有更加分散的趋势,导致用户搜索和发现感兴趣的Web服务变得更加困难。在这种形势下,利用搜索引擎技术来发现Web服务的研究开始成为最近的一个热点。从Web服务概念的提出到现在已经有十多年的时间,随着Web服务的广泛应用,也暴露出了越来越多的问题。与此同时,基于Rest风格的Web服务可以在继承传统Web服务优势的同时有效的解决的传统Web服务所面临的缺陷,受到了越来越多的企业和研究者的重视和关注,Web API则是一种典型的Rest风格的Web服务。现阶段,已开放的Web API越来越多,但相对互联网还十分分散,如何将已发布的Web API尽可能多的搜集起来供开发者使用,是一个很具有实际意义的研究问题。Map/Reduce是一个面向分布式的编程模型,设计实现了一个能够在多计算节点环境下计算和存储超大规模数据集的算法,通过使用Map/Reduce技术能够在普通的PC集群上方便快捷的部署分布式应用程序,有效提高搜索引擎的系统性能和工作效率。本文主要工作如下。1.提出了基于Map/Reduce的分布式Web服务搜索引擎的体系架构,并对相关的模块做出了详细的介绍。2.利用Map/Reduce技术将整个系统构建在Hadoop框架上,充分发挥了计算机集群强大的计算和数据存储能力,实验证明本系统在抓取Web服务效率上明显好于传统集中式Web服务搜索引擎。3.通过研究Web服务在互联网上的分布情况,提出了一种多粒度待抓取URL优先级算法,实验证明,多粒度待抓取URL优先级算法可以提高搜索引擎的工作效率。4.通过对已经获取的部分Web API描述文档的分析和研究,提出了一种针对Web API描述文档的垂直搜索分析算法,通过实验,验证了利用网络蜘蛛技术在互联网上搜索和抓取Web API描述文档的可行性。
其他文献
随着能源与环境问题的日益凸显,清洁、可再生的分布式发电技术逐渐成为全球瞩目的焦点。然而分布式电源的接入对大电网产生了诸多不利影响,这制约了其并网与发展。微网技术的
词汇量的大小,对于一个外语学习者的外语水平有着直接的影响。词汇是中学生英语学习中较为薄弱的一环。本文旨在研究高中英语学困生在学习掌握词汇时所运用的策略,并结合教师
目的:1描述因意外创伤或突发疾病而导致心跳或呼吸骤停的濒死者主观的“濒死体验”内容,提高临床护理人员对濒死体验知识的认识与掌握。2分析“濒死体验”对濒死者濒死期身、心
我国将长期能维持以煤炭为主的源结构,煤炭约占总能源的70%。我国的煤炭因产地不同,所含硫成分也不经相同,如果不经处理直接燃烧会产生大量SO2,造成环境污染。随着SO2大量的排放,
海底管道完整性管理研究,是国际上近年来提出的新的研究领域。其以管道的全寿命周期安全为目标,综合考虑管道生命周期内的复杂多变因素,采用不同方法和手段研究管道的安全,并且保
结合工程实例 ,介绍了抗渗混凝土和SBS防水卷材的防渗漏施工工艺 ,从设计用料、屋面防渗漏施工、管道防渗漏施工等方面进行了论述 ,指出该工程防渗漏方法得当 ,取得了一定效
JAVA企业级开发应用性广,需要掌握JAVA系列的多种技术与多种组件、类。最终目的是通过掌握技术,实现项目的构建,达到企业应用的目的。本文从定义入手,深入浅出的介绍了JAVA企业级
本文选题来源于武汉市科技供需对接计划项目(201150124015)。吸附床结构的改善是吸附制冷界研究的重点之一,现有的壳管式吸附床以柴油机尾气为热源,烟气与传热单元管之间换热系数
目的分析新医改以来甘肃省综合医院中医药事业发展过程中取得的成绩和存在的问题,为进一步发展提供依据和对策。方法从国家卫生统计信息网络直报系统和《国家卫生和计划生育
【正】 □深圳华为 华为HONET装备铁路接入网 日前,上海铁路局启动沪宁铁路接入网工程。这是光纤接入网设备第一次应用于我国铁路通信建设。深圳市华为技术有限公司承担了此