论文部分内容阅读
目前,无论是数字化管理的需要还是后工业化进程的要求,都使我们日益面对以前无法想象的海量数据。虽然数据挖掘技术已经在医学珍断、市场与销售、图像筛选、负载预测等领域得到了广泛的应用,但是面对日益爆炸式增长的数据和高度复杂的计算模型,传统的集中式数据挖掘技术已显得有些力不从心,必须利用分布式、并行计算技术将其过渡到新的处理模式上。网格技术和Web服务技术的出现,为分布式数据挖掘的研究带来了新的契机,因为网格技术可以将分散在不同地理位置的各种异构资源有机地整合起来形成一个具有超级计算能力的平台,从而达到计算资源、存储资源、算法资源、信息资源等的全面共享,而Web服务作为一种新兴的Web应用模式和分布式计算模型,正可以用来解决各种异构资源之间的互操作和互通信问题。因此,在网格环境下,将Web服务技术应用到数据挖掘领域是一个全新的理念,利用Web服务机制对服务的发布、发现及管理来达到资源的共享,有效地弥补网格资源的动态性及分布性。本文在深入研究相关理论的基础上,对如何将网格与Web服务技术融合并应用于数据挖掘领域做了初步的探索,主要工作包括:(1)结合数据挖掘的全过程提出了面向服务的基于工作流的数据挖掘管道模型,基于此模型提出并设计了一种新型的面向服务的分布式数据挖掘平台SODDM体系结构,实现了用户可以交互式地完成整个数据挖掘任务的执行。(2)利用Web服务的发布与发现机制设计并实现了面向服务的分布式数据挖掘门户PDDM。构建了私有的UDDI注册中心来对服务资源进行统一的存储和管理,不仅为提供者发布服务提供宿主,同时能为请求者查找服务提供基础。在服务查找时提出了一种新型的服务质量计算模型来度量用户对服务的满意度。(3)基于Weka类库开发了一系列通用的、可扩展的数据挖掘工具,包括数据选择、数据转换、算法选择、算法参数配置、属性选择及结果集的表示。这些工具集可以使用户交互式地参与整个数据挖掘过程,同时也能与数据挖掘服务进行动态组合,完成数据挖掘管道的构建。(4)随着网格与Web服务的融合,越来越多的资源会以Web服务的形式提供,以分布式问题求解环境Triana和开源数据挖掘类库Weka为底层支撑环境,设计并实现了面向服务的分布式数据挖掘系统DDMWS,实现了对PDDM门户中查找到的数据挖掘服务的导入、组合和调用。此外,系统能以工作流形式灵活地构建数据挖掘管道,用来支持交互式、分布式和并行数据挖掘的实现。(5)本文对所提出的SODDM平台进行了有效性验证,利用WAT对PDDM门户进行了定量分析,测试门户能够承受并发用户的数目;利用校园网搭建虚拟网格实验环境,基于该环境对DDMWS系统的可用性及通用性进行了论证,分别采用分类、聚类、关联规则进行了系统验证,结果表明该系统可以有效地解决各类分布式/并行数据挖掘任务。基于上述对本文工作内容的总结及目前国内外对该课题的研究现状,本文研究工作的特色在于:(1)结合数据挖掘领域的特点,提取了一组服务质量参数及计算模型。并定义了服务质量的计算方法,用来为请求者提供满意的服务提供质量担保。(2)构建了私有的UDDI注册中心,用来管理和协调数据挖掘服务、实现服务的发布与发现。在服务发现时,能够为用户查找满足一定服务质量QoS的数据挖掘服务。(3)提出了一种基于工作流的数据挖掘管道模型,基于此模型利用Weka开发了一系列数据挖掘工具。在DDMWS中利用数据挖掘工具集与数据挖掘服务进行动态组合、构建数据挖掘管道、完成数据挖掘任务的执行。