基于粗糙集理论的并行属性多约简及规则提取

来源 :大连海事大学 | 被引量 : 0次 | 上传用户：bianyuantuifei

【摘要】

：

随着科学技术和网络技术的不断发展,数据与数据之间的关系越来越复杂,如何从复杂的数据中提取有用的价值和信息是目前面临的问题。粗糙集理论是进行数据挖掘的有效工具,它不

【作者】

：

武智

【出处】

：

大连海事大学

【发表日期】

：

2018年01期

【关键词】

：

并行算法属性多约简粗糙集决策树随机森林

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着科学技术和网络技术的不断发展,数据与数据之间的关系越来越复杂,如何从复杂的数据中提取有用的价值和信息是目前面临的问题。粗糙集理论是进行数据挖掘的有效工具,它不依赖于数据集之外的任何先验知识,主要是通过一定规则对数据集进行划分,从而获取数据之间隐藏的知识。属性约简是粗糙集理论中获取知识的关键步骤,其通过删除冗余属性降低决策表维度进而获取隐藏的规则,被广泛应用于模式识别、机器学习等领域。然而,传统的属性约简算法存在约简结果单一的缺点。更重要的是,在大数据时代,其无法满足多维度、多层次的海量数据的处理。本文提出了一种基于正区域的并行属性多约简算法。其克服了传统属性约简算法约简结果的单一性,并采用MapReduce并行编程模型来处理海量数据。该算法的关键之处在于高效地划分等价类和计算属性重要度来提高约简的效率;以循环替代非核属性的方式获取多个约简结果。同时,采用Mahout中并行随机森林分类器计算各个约简结果的分类精度,选择一个分类精度最高的结果,进行决策表中知识的获取。在知识提取过程中,本文采用构建CART决策树模型,遍历决策树的方式获取最终的规则。最后通过UCI数据集进行算法的验证,小数据集验证约简结果的正确性,较大数据集用于计算该算法的运行时间,并通过与其他并行属性约简算法的运行时间的对比来证明本文算法的运行效率。另外设计一些人工数据集来评估本文算法的加速比、可扩展性等并行指标,充分地证明了本文算法适用于处理大规模海量数据。

其他文献

对工业机器人研发的分析

在当前的机电一体化研发中，工业机器人的研制具有举足轻重的地位，本文主要针对工业机器人的研发历程、国外相关研真矽态噬及国内研究动态开展分析，针对表项研究的重点与热点以及

期刊

工业机器人研究现状分析

激励参与意识发现艺术人才培养戏曲观众首届安徽省黄山杯黄梅戏票友大奖赛圆满成功

由安徽省文化厅、安徽省黄梅戏艺术发展基金会联合举办的首届安徽省黄山杯黄梅戏票友大奖赛,于1995年12月13日至15日在合肥举行。这次大赛的宗旨是更好地弘扬民族优秀文化,繁

期刊

戏曲观众安徽省黄山杯大奖赛参与意识

饮料中葡萄糖含量的测定

为了检测饮料中的葡萄糖含量以作为特殊人群的健康指导,本论文采用生物传感器方法,对比了以美国、中国和丹麦的鸡蛋蛋膜为负载葡萄糖氧化酶的感应器材料,溶解氧电极为转化器

期刊