网格环境下面向服务的分布式数据挖掘研究与实现

来源 :武汉理工大学 | 被引量 : 10次 | 上传用户:yya_ch
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,无论是数字化管理的需要还是后工业化进程的要求,都使我们日益面对以前无法想象的海量数据。虽然数据挖掘技术已经在医学珍断、市场与销售、图像筛选、负载预测等领域得到了广泛的应用,但是面对日益爆炸式增长的数据和高度复杂的计算模型,传统的集中式数据挖掘技术已显得有些力不从心,必须利用分布式、并行计算技术将其过渡到新的处理模式上。网格技术和Web服务技术的出现,为分布式数据挖掘的研究带来了新的契机,因为网格技术可以将分散在不同地理位置的各种异构资源有机地整合起来形成一个具有超级计算能力的平台,从而达到计算资源、存储资源、算法资源、信息资源等的全面共享,而Web服务作为一种新兴的Web应用模式和分布式计算模型,正可以用来解决各种异构资源之间的互操作和互通信问题。因此,在网格环境下,将Web服务技术应用到数据挖掘领域是一个全新的理念,利用Web服务机制对服务的发布、发现及管理来达到资源的共享,有效地弥补网格资源的动态性及分布性。本文在深入研究相关理论的基础上,对如何将网格与Web服务技术融合并应用于数据挖掘领域做了初步的探索,主要工作包括:(1)结合数据挖掘的全过程提出了面向服务的基于工作流的数据挖掘管道模型,基于此模型提出并设计了一种新型的面向服务的分布式数据挖掘平台SODDM体系结构,实现了用户可以交互式地完成整个数据挖掘任务的执行。(2)利用Web服务的发布与发现机制设计并实现了面向服务的分布式数据挖掘门户PDDM。构建了私有的UDDI注册中心来对服务资源进行统一的存储和管理,不仅为提供者发布服务提供宿主,同时能为请求者查找服务提供基础。在服务查找时提出了一种新型的服务质量计算模型来度量用户对服务的满意度。(3)基于Weka类库开发了一系列通用的、可扩展的数据挖掘工具,包括数据选择、数据转换、算法选择、算法参数配置、属性选择及结果集的表示。这些工具集可以使用户交互式地参与整个数据挖掘过程,同时也能与数据挖掘服务进行动态组合,完成数据挖掘管道的构建。(4)随着网格与Web服务的融合,越来越多的资源会以Web服务的形式提供,以分布式问题求解环境Triana和开源数据挖掘类库Weka为底层支撑环境,设计并实现了面向服务的分布式数据挖掘系统DDMWS,实现了对PDDM门户中查找到的数据挖掘服务的导入、组合和调用。此外,系统能以工作流形式灵活地构建数据挖掘管道,用来支持交互式、分布式和并行数据挖掘的实现。(5)本文对所提出的SODDM平台进行了有效性验证,利用WAT对PDDM门户进行了定量分析,测试门户能够承受并发用户的数目;利用校园网搭建虚拟网格实验环境,基于该环境对DDMWS系统的可用性及通用性进行了论证,分别采用分类、聚类、关联规则进行了系统验证,结果表明该系统可以有效地解决各类分布式/并行数据挖掘任务。基于上述对本文工作内容的总结及目前国内外对该课题的研究现状,本文研究工作的特色在于:(1)结合数据挖掘领域的特点,提取了一组服务质量参数及计算模型。并定义了服务质量的计算方法,用来为请求者提供满意的服务提供质量担保。(2)构建了私有的UDDI注册中心,用来管理和协调数据挖掘服务、实现服务的发布与发现。在服务发现时,能够为用户查找满足一定服务质量QoS的数据挖掘服务。(3)提出了一种基于工作流的数据挖掘管道模型,基于此模型利用Weka开发了一系列数据挖掘工具。在DDMWS中利用数据挖掘工具集与数据挖掘服务进行动态组合、构建数据挖掘管道、完成数据挖掘任务的执行。
其他文献
移动机器人的研究开始上个世纪60年代末期,是人工智能、机器人学、仿生学、控制理论和电子技术等多种技术学科交叉的产物。随着科技的发展和社会的进步,机器人已经走出实验室
位置感知的服务(LBS:Location Based Service)是一种通过定位用户的位置信息,从而为用户提供空间位置相关的相应服务的技术。目前LBS的应用以GPS导航为主,个人移动设备上的LB
农业信息化、数字化是21世纪世界农业发展的必然趋势,是农业现代化的重要内容之一。加强农业信息系统化建设是推进农业信息化的基础性工作。农业专家系统经过几十年的发展,其
现在第四代移动通信已趋于成熟,人们更加关注移动宽带网络传输的服务质量(QoS),尤其在多输入多输出(Multiple-Input-Multiple-Output,MIMO)系统下的视频多播方面。随着第五代
互联网、移动互联网等技术的发展,使得服务器上的Web日志急剧膨胀。Web日志记录了上网用户访问Web页面的浏览行为,对网站建设和提供精准服务具有重要的指导意义。但是,原始We
在当前国内配电网信息系统中,管理信息系统重复建设问题严重,这不仅浪费了巨大的财力和时间,而且大量的信息资源不能充分发挥应有的作用。本文提出了构建基于面向服务体系架
图像半色调化是一种广泛应用在图像处理领域中的影印技术。近年来随着高分辨率、大尺寸规模图像的应用,传统的图像半色调化串行算法已不能满足实时处理的需求。异构众核处理
随着Internet的快速发展以及信息技术在各个科学领域的普及,在同一科学领域的不同机构,数据的表现方式呈现出不同的特点,数据之间的共享以及集成成为对数据资源进行有效利用
随着互联网应用的发展和社会信息化的深入,需要处理的数据的规模和越来越大,传统的存储系统已经适应不了新的存储需求。由于基于DHT的P2P网络具有去中心化的资源利用和去中心
随着互联网的大规模普及和持续高速发展,成千上万的新闻网站应运而生并源源不断发布海量新闻网页。然而计算机程序并不能直接地理解新闻网页中哪些部分是新闻标题和正文,因而