基于粗糙集的决策树分类方法研究

来源 :大连海事大学 | 被引量 : 12次 | 上传用户:u20051026
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
进入“互联网+”时代,人们从生产、生活中积累的数据呈现爆发式增长,数据已成为重要的战略资源,如何利用海量数据发现新知识已成为数据挖掘领域的研究热点,其中,决策树分类算法以其结构清晰、算法高效的特点被广泛应用。由于数据挖掘中决策树算法在分类效率和准确率上对决策信息的规范性较为敏感,并且随着数据量的几何式增长,常规的串行决策树分类算法已难于突破内存瓶颈和计算能力约束。因此,本文将粗糙集中的属性约简理论与决策树分类算法相结合,降低了决策树的复杂程度并提高了算法效率,取得了良好的理论和应用效果。本文的主要研究内容分为以下几个部分:(1)粗糙集理论方面:从属性约简的候选属性入手,在分析现有属性约简算法的基础上,将相关属性测度加入选择候选属性的过程中。在选择候选属性时,优先选择与核属性相关度最大的属性加入候选约简集,同时剔除非相关属性,通过这种思想达到约简集最小,并保证属性约简集信息量最大化的目的。通过大量对比实验验证,这种算法有效解决了约简集增删候选属性时的盲目性,节省了属性约简过程中的计算开销。(2)决策树分类算法方面:结合基于相关属性的属性约简算法,本文得到了节点冗余度更低的决策树分类结果,并针对现有串行决策树分类算法无法适应大数据环境下数据挖掘需求,及并行决策树分类算法在分布式框架下I/O开销过大的问题,使用一种新的数据结构简化了Map和Reduce过程,得到了新的决策树分裂标准,藉此降低了节点周转次数和I/O开销。通过实验显示,分布式并行决策树算法在保证分类准确率的情况下,得到了较为优异的决策树尺度和运行效率。
其他文献
数据挖掘作为一种帮助人们从海量数据中发现潜在有用知识的工具,在很多领域发挥了重要的作用。将数据挖掘的方法应用于社会网络分析是数据挖掘研究的一个新的方向。社会网络
数据库中的知识发现(KDD)是将未加工的数据转换为有用信息的整个过程,而数据挖掘是其不可缺少的一部分。数据挖掘是一个多学科交叉研究领域,它将传统的数据分析方法与处理大
随着计算机网络规模和应用领域的日益扩大,由网络攻击或网络入侵等恶意行为导致的网络安全问题也日益突出。网络恶意行为通常会导致网络流量的异常变化,因此,及时准确的检测
量子通信是量子信息基础理论应用的主要研究内容之一。量子安全通信将保密通信体系建立在量子力学理论之上,为信息的安全传输提供了新的方法。量子力学在研究微观粒子的状态和
Web服务吸收了分布式计算、网格计算和XML等各种技术的优点,解决了异构分布式计算以及代码与数据重用等问题,具有高度的互操作、跨平台和松散耦合的特点,成为WWW发展的主要趋
近年来,随着电子商务中的物流技术的高速发展,RFID(Radio Frequency Identification,射频识别)标签技术发展十分迅速。RFID中间件作为一种面向消息的中间件,是RFID各项产业应用的
随着移动网络的迅猛发展以及第三代移动通信业务的推陈出新,使用移动流媒体业务的用户也日益增多。与此同时,市场的急剧扩大也加速了移动流媒体技术的进步。在参照了第三代合
在模式识别中,根据学习方式的不同可将其分为两大类:有监督学习和无监督学习。由于无监督学习的准确率通常不能令人满意,在实际应用中人们趋向于运用有监督方法。支持向量机
数据仓库及基于此技术的商业智能已成为信息化时代发展的大趋势。本文在对数据仓库技术进行深入研究的基础上,结合近年来表单电子化和信息化发展的大趋势,针对市场竞争的加剧需
高光谱遥感图像凭借其较高的光谱分辨率,超高的光谱信息量以及相邻波段较高的相关性,具有较强的实用性,已成为遥感图像领域的一个研究热点,受到各国专家学者的青睐。相关向量机理论是2001年M.E.Tipping提出的一种新型的基于贝叶斯统计学习框架的有监督机器学习算法,该算法的提出弥补了传统SVM算法的不足。相关向量机通过回归估计获取预测值的概率分布,从而得到一个基于核函数的稀疏解,能够处理回归和分类问