论文部分内容阅读
随着科学技术和网络技术的不断发展,数据与数据之间的关系越来越复杂,如何从复杂的数据中提取有用的价值和信息是目前面临的问题。粗糙集理论是进行数据挖掘的有效工具,它不依赖于数据集之外的任何先验知识,主要是通过一定规则对数据集进行划分,从而获取数据之间隐藏的知识。属性约简是粗糙集理论中获取知识的关键步骤,其通过删除冗余属性降低决策表维度进而获取隐藏的规则,被广泛应用于模式识别、机器学习等领域。然而,传统的属性约简算法存在约简结果单一的缺点。更重要的是,在大数据时代,其无法满足多维度、多层次的海量数据的处理。本文提出了一种基于正区域的并行属性多约简算法。其克服了传统属性约简算法约简结果的单一性,并采用MapReduce并行编程模型来处理海量数据。该算法的关键之处在于高效地划分等价类和计算属性重要度来提高约简的效率;以循环替代非核属性的方式获取多个约简结果。同时,采用Mahout中并行随机森林分类器计算各个约简结果的分类精度,选择一个分类精度最高的结果,进行决策表中知识的获取。在知识提取过程中,本文采用构建CART决策树模型,遍历决策树的方式获取最终的规则。最后通过UCI数据集进行算法的验证,小数据集验证约简结果的正确性,较大数据集用于计算该算法的运行时间,并通过与其他并行属性约简算法的运行时间的对比来证明本文算法的运行效率。另外设计一些人工数据集来评估本文算法的加速比、可扩展性等并行指标,充分地证明了本文算法适用于处理大规模海量数据。