论文部分内容阅读
20世纪末,随着信息技术的普遍应用、Internet的普及,信息系统的分布式应用及研究逐渐成为热点,分布式数据挖掘也得到了越来越高的重视。与此同时,分布式数据挖掘模型、分布式数据挖掘算法、分布式数据挖掘工具等方面的研究也相继展开,并取得了一些成果,但也存在诸多亟待解决的问题。Multi-Agent技术被认为是解决分布式数据挖掘的有效方法。在分布式数据挖掘模型方面,数据挖掘工作者提出了几种经典的基于Agent的分布式数据挖掘模型:JAM、PADMA、以及以CDM为基础改进的基于异构站点的集合式数据挖掘系统BODHI等。这些模型为研究分布式数据挖掘,起到过积极的推动作用。随着Internet的发展和普及,分布式应用出现了新的特征:数据站点数量庞大,随时扩展新数据站点,数据更新频率高,跨越距离大。如何对这样的分布式系统进行有效的数据挖掘成为一项紧迫的任务。经典模型在应对这些新型分布式系统时,显得力不从心。文章在研究Multi-Agent技术的基础上,分析经典的基于Agent的分布式数据挖掘模型的优缺点。通过改进经典模型的缺点,保留优点,运用不同的网络技术作为通讯媒介,旨在设计一种新的基于Agent的并行群组数据挖掘模型——PADMAN。目的在于解决当前出现的数据站点数量庞大、扩展新数据站点灵活、更新数据频率高、跨越距离大的分布式系统的数据挖掘需求。在PADMAN模型的基础上,提出了适用于本模型的数据挖掘结果合并策略。通过两次合并数据挖掘结果,解决了以往模型中出现的主站点负载压力大,网络通讯量较大,控制难度较高的缺点。文章在研究PADMAN模型框架,以及基于本模型的合并策略的基础上,运用Eclips与JADE平台,实现了PADMAN原型系统,以验证模型群组内的协作关系。论文的重点在于对PADMAN模型架构设计、基于PADMAN模型的数据挖掘结果的合并策略,在模型实现方面还略显不足。文章在应对目前出现新特征的分布式数据挖掘方面,提出了一些新的观点,具有一定的参考价值。