论文部分内容阅读
数据挖掘是从大量的数据中挖掘出有用的或者人们感兴趣的知识的一种方法。处理海量数据一直是数据挖掘要解决的一个重要问题。本论文结合RoughSet理论提出了一种直接处理海量数据全集的方法,并研究了分布式处理海量数据中的关键问题,即分割海量数据集的问题。
经典的RoughSet算法要求数据常驻内存,因此不能有效地处理海量数据。本论文首先提出了类分布链表的结构来表示一个属性组合对样本空间的分类情况,类分布链表可以通过使用数据库技术对原始数据集进行直接分类来获取。通过类分布链表,本论文改进了一组RoughSet知识约简算法,从而使它们能够直接处理海量数据集。类分布链表的方法还可以作为一种框架扩展到其它的RoughSet算法来提高这些算法的可伸缩性,同时不影响它们的正确性。
在分布式处理海量数据中,关键的第一步就是如何有效地将原始海量数据集分割成许多可以在单机上处理的数据子集。本论文根据RoughSet的特点提出了最佳分割的定义,然后提出了一种海量数据分割算法来寻找最佳分割。通过实验测试证明结合本文提出的数据分割算法的分布式处理方案能够快速地处理海量数据,而且与处理整个数据集的算法相比,正确性损失不大。