论文部分内容阅读
数据挖掘是指从大型数据库或数据仓库中提取隐含的、先前未知的、对决策有潜在价值的知识和规则。它是近年来企业用以分析大型数据集的核心技术和知识发现过程中的关键步骤。
Internet/Intranet的高速发展促进了数据库技术的深入应用,由于安全及通信成本、效率等多方面的原因,大量的分散数据不可能集中起来处理。同时,对挖掘系统的开放性和易用性的要求越来越高。分布式的数据挖掘就是在这样的背景下提出的。针对以上问题,本文讨论了一个基于Web服务的数据挖掘系统结构。它将Web服务这一技术引入了数据挖掘,并在解决上述问题方面做了一些尝试。
本文在一个关联规则挖掘的并行算法CD算法的基础上,给出了一种基于动态数据集划分的并行关联规则挖掘算法。实验表明它能更好地实现负载平衡,提高并行数据挖掘的效率。然后本文基于WebService技术设计了一个数据挖掘系统平台,只要遵循我们的数据模型接口和挖掘模型接口,新的数据挖掘算法可以很容易地集成到系统中来。并且,我们的平台也是一个具有实际应用价值的、开放的和便于移植的挖掘系统框架。同时,为了避免大量数据传输造成的效率问题,本文将SmartClient框架引入了这个数据挖掘系统平台,让客户可以选择数据挖据是在客户端进行还是在服务器端进行,以充分地利用客户端资源。