论文部分内容阅读
分类规则的挖掘是数据挖掘研究领域的一个重要问题,而传统的数据挖掘算法和模式主要采用集中式,这不仅要求有高速的数据通信网络,还会导致响应时间延长以及使数据的私有性和安全性遭受破坏,不适合分布式环境下的数据模式挖掘。因此本文主要从分布式的角度出发,针对分类知识的理论和方法进行了深入研究,提出了有效的挖掘算法。 本文首先提出了一种采用纵向划分数据集和同步更新哈希表技术来建立异构分布式环境下分类决策树的算法DSPRINT,以及采用区间分割和区间筛选技术的DSPRINT改进算法。DSPRINT算法采用属性直方图的数据结构,将类别列表合并到每个属性列表当中,减少了需要驻留于内存的数据量。DSPRINT算法还采用纵向划分数据集和同步更新哈希表的策略,根据最小gini值选出可以用来更新的哈希表项,对其相应条目进行修改,利用哈希表来记录并控制各分站点的节点分裂情况,具有较高的准确率。针对DSPRINT算法处理连续值属性效率较低的缺点,还将DSPRINT算法进行了改进,采用区间评估和区间筛选的思想,通过取样将连续值属性的值域划分成多个区间,估计在各个区间上有无找到最佳分割点的可能,最后在可能找到最佳分割点的区间中逐一搜索,有效地提高了算法的工作效率。对比实验表明,当选取合适的区间数时改进算法和DSPRINT算法在分类准确率上相同;另外,当分站点数目逐渐增多时,两种算法均可以获得较高、稳定的准确率,且改进算法在处理连续值属性时的计算效率要比DSPRINT算法更高。 另外,针对分布式环境中满足单调性约束条件的分类问题,本文将R. Potharst提出的建立单调性决策树的思想在分布式环境中进行拓展,对DSPRINT算法进行补充,增加了修改规则Update,将生成的非单调性决策树修正为单调性。使无需随时增加各个分站点数据集数目,仅插入少量数据项,通过分裂一些叶节点,增加少量分枝即可实现决策树单调化。 本文进一步针对常规分布式数据挖掘系统存在的数据分块、结果集成、安全性等问题,提出将移动代理技术和数据挖掘技术相结合,