结合属性关联度的决策树算法研究及应用

来源 :山东大学 | 被引量 : 0次 | 上传用户:shengyan1205
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在新的世纪,挑战与机遇并存,可以说利用并驾驭所产生出的海量数据关系着各个行业未来的发展。在大数据领域的深入探索可以更宏观的分析数据模式,发现潜在规律并对未来趋势进行合理预测,从而可以洞察到更为深刻、有效、全面的信息。数据挖掘相关算法的研究,可以说是兼具科学研究价值与实用价值。本课题在经典的决策树C4.5算法基础上,利用Apriori关联规则算法将数据源属性间的关联度结合到后期决策树的计算中。传统的C4.5算法对选择分裂属性时只是考虑待测属性与类属性之间的相关性,忽视了非类属性间的关联程度,而这种关联程度决定了属性间冗余度的大小。为了能够降低冗余带来的影响,本文运用信息增益的思想对待测属性和其他非类属性进行度量,并加入到原始的算法中,从而生成更加可靠的分裂属性。另外在决策树模型的构建过程中,针对属性涵盖信息量不足的情况,论文同时也采用了关联规则Apriori算法生成一系列强规则,并根据提出的新属性选择标准,从这些强规则中继续筛选出新的属性并加入到原始属性集合中,达到扩充信息量的目的,进而使C4.5算法预测的准确率得到提升。一个样例中包含的信息往往是多样而丰富的。利用传统的决策树算法,我们可以知道"属性-分类"的关联程度,但属性间的关联程度是一种对数据集的横向分析,通过分析两个属性间的关系可以使我们的分析框架更为立体,结果更具有可用性。最后,本文将该方法应用到了实例中,利用历史数据找出影响健身场馆顾客入会的主次因素,结合相关属性建立模型并进行预测,发现那些有兴趣并且有较高价值的客户群体,进一步说明算法在实际场景中的实用价值。
其他文献
本文是以全国计算机信息高新技术考试(OSTA)为背景,开发相应的在线考试系统项目,结合办公自动化应用技能水平测试需要,利用教学单位现有教学资源,使用计算机技术和网络自主设
Web2.0的兴起吸引了越来越多的因特网用户,电子商务和论坛在这一平台上得到了长足的发展。在线购物网站和产品论坛中积累起海量的产品评论。产品的潜在用户希望从中获取有价
集合选择是分布式信息检索过程中的重要一环,其在尽量不影响检索效果的情况下,选择和查询相关度高的部分集合进行检索。目前大多数集合选择算法根据主要通过集合的静态统计信息
最近几年,我们可以看到,社区问答系统中的用户数量正呈现出高速增长的态势。社区问答系统给用户提供了一个发布问题以及寻找答案的平台,而这个广大的平台中所包含的海量的问
近年来,我们进入了数据爆炸时代,随着数据的增长以及数据存储能力的增强,使得我们可以获得形式各异的数据源并将其存储于信息库中。通过对信息库中存储的数据进行分析挖掘,可
自动信任协商是通过协商机制来实现开放式环境中陌生方之间的信任建立。协商机制的核心内容包括访问控制策略和协商策略,现今它们存在的主要问题有:访问控制策略规则过于复杂可
随着网络的普及,越来越多的人们使用网络这个平台保存和获取数据,实现了知识的共享。然而,这种共享所面临的困难是如何在海量的数据中快速而准确的查询到自己所要的知识。问答系
作为数据挖掘的重要研究方向,图序列社区挖掘在社交网络等实际问题中有着广泛应用。如何精确地获得图序列中有价值的信息,以及如何加快算法在大规模数据集上的速度尤为关键。现
随着宽带多媒体网络的不断发展,各种宽带网络应用层出不穷。IPTV、视频会议、数据和资料分发、网络音频应用、网络视频应用、多媒体远程教育等宽带应用都对现有宽带多媒体网
数据仓库(Data Warehouse,DW)及商业智能(Business Intelligence,BI)技术的快速发展,使得基于数据仓库的联机分析处理(Online analytical processing,OLAP)工具得到广泛的应用。