基于Hadoop的并行共享决策树挖掘算法研究

来源 :计算机科学 | 被引量 : 0次 | 上传用户:sunlang110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
共享知识挖掘是指通过学习不同事物之间的共享知识,将学习到的知识应用到未知事物来加快认知未知事物.针对大数据集中串行共享知识挖掘算法效率低下的问题,结合云计算技术,提出了一种基于Hadoop的并行共享决策树挖掘算法(PSDT).该算法采用传统的属性表结构实现并行挖掘,但其I/O操作过多,影响算法性能,为此,进一步提出了一种混合并行共享决策树挖掘算法(HPSDT).该算法采用混合数据结构,在计算分裂指标阶段使用属性袁结构,在分裂阶段采用数据记录结构.数据分析表明,HPSDT算法简化了分裂过程,其I/O操作是S
其他文献
NSGA2算法以其Pareto支配的选择模式并辅以解个体密度估计算予选择胜出解的策略而成为了现代多目标进化算法的典范,但是该算法通过计算解个体的聚集距离来保持群体的分布性的
本文简述了涤纶仿真丝的主要技术,如异形、细旦、混纤、减量处理等,同时对其原理以及中工方法也做了简单的总结和介绍,说明了在化纤大发展以及因世界人口增加和生活水平不断提高