基于决策树的属性约简方法研究

来源 :河北科技大学 | 被引量 : 0次 | 上传用户:freeboy033
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类是数据挖掘的一项核心任务,而分类的依据常常是所关心的问题的某些方面的特征(通常称之为属性)。由于数据库中的数据往往与给定的属性集中的某些属性的状态(即取值)无关或关联不大,直接采用给定的属性集来挖掘知识将增大数据挖掘的难度,特别,对于巨型数据库而言,可能会导致相关数据挖掘算法的失效,因而,如何精练数据挖掘的属性集(称之为属性约简),是数据挖掘的一个关键环节。 目前的属性约简算法大都是以波兰数学家Z.Pawlak于1982年提出的粗糙集作为理论基础,其主要思想就是在保持分类能力不变的前提下,通过约简,导出问题的决策或分类规则。虽然这些算法均具有良好的理论基础,但它们的空间复杂度和时间复杂度都较高,不能有效地处理大型数据库的属性约简问题。 决策树算法是目前机器学习领域中最为成熟的内容,其优点为:1)决策树方法结构简单,无需了解很多的背景知识;2)决策树模型效率较高,对训练样本集数据量较大的情况尤为适合;3)决策树算法的计算量相对较小;4)决策树方法具有较高的分类精确度。 因此,本文结合决策树算法操作简单、分类速度快的特点,通过将知识库抽象为规则族及规则族之间的相似性比较,建立了一种基于决策树的属性约简方法(简记为BD—RED),具体工作如下:1)建立了规则的形式化描述模式;2)从结构化的角度讨论了规则族之间的相似性度量的构建问题;3)给出了BD—RED的具体实施原则;4)结合具体实例分析了BD—RED的特征和性能。结果表明,BD—RED具有良好的结构特征和较强的可操作性,可以有效地实现不同决策理念下的属性约简,适合不同类型的大规模数据库的属性约简。 最后,我们提出了改进的ID3算法(C—ID3算法),本文针对归纳学习所依赖的示例存在缺失值的情况,先对数据库做一个初步的可信度计算,然后结合ID3算法作出决策树,该算法生成的规则更精确,而且还能根据具体需要得到合适的规则。理论分析和试验仿真都表明,该方法不仅具有较强的可操作性,而且能够提高所得知识的精确度。
其他文献
大型稀疏矩阵对应的鞍点问题的求解在很多领域中都有广泛应用,如约束优化问题,最小二乘问题,图像处理等等,对于这类方程是用迭代法进行数值求解的,Uzawa算法和最小残量法(MINRES)
最大公约数与最小公倍数的七次和函数本文在第一章中首先介绍最大公约数,最小公倍数,积性数论函数,Dirichlet卷积,Dirichlet级数,Riemannzata函数,Euler求和公式及数论函数的均值等
寿险精算学作为一门综合性非常强的学科,主要建立在数理统计与概率论的基础上,通过使用微积分等数学方法对人寿保险的寿险分布函数、寿险分布规律、计算保费以及准备金计算等问题进行研究。作为寿险公司为了能稳定健康地发展,需要有合理的偿付能力,而这种偿付能力与责任准备金紧密相连。保险准备金是为确保保险人依约践诺保险赔偿或给付义务,根据相关法律法规或特定业务及政策须要,从保费收入或盈余中提取出来的与其承担的保险
超单纯设计是指任意两个区组至多相交两个公共点的设计,可用来构造重叠码和具有尽可能多不同区组的设计.一个超单纯循环设计可用来构造光正交码,本文主要研究两类较大指数的超