基于变精度粗糙集的连续属性离散化方法及数据预处理方法

来源 :东北师范大学 | 被引量 : 0次 | 上传用户:Mickey123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是当今国际人工智能和数据库研究最活跃的新兴领域之一,是数据库知识发现KDD(Knowledge discovery in databases)的核心,它旨在发现数据中隐藏的、未知的、潜在有用的知识,本质上是在大的数据集合中寻找数据间的规则和普遍模式。连续属性的离散化(discretization)即实型空间向整型空间的映射,是许多数据挖掘过程中数据预处理阶段的重要步骤。由于它在减少后继算法的时空复杂度,提高系统的鲁棒性上的重要作用而被广泛研究。由Pawlak(1982)提出的粗糙集(Rough set)理论是关于数据推理的强大工具,这个方法已经被成功应用于机器学习、知识获取、决策分析、知识发现、模式识别、专家系统和决策支持系统等领域。粗糙集理论的特点是,无需提供除待求解问题所需处理数据集合之外的任何先验信息。本文主要研究了以下问题:1)基于变精度粗糙集的连续属性离散化。变精度粗糙集模型是由W.Ziarko在基本粗糙集理论的基础上引入误差因子β而得到的,引入β因子的目的在于将精确的二元等价关系推广为一般的二元关系。本文提出了基于变精度粗糙集模型的连续属性离散化的方法,其特点在于可将原来没有划入正域的集合划入正域,以增强泛化能力。这种方法计算过程简单,易于实现。2)基于多连续属性离散化的数据预处理方法。目前包括C4.5在内的很多离散化算法都具有以下特征:有监督、鲁棒性、针对单一属性。这些特征容易造成一些异常数据被当作噪声数据忽略,而一些错误数据则由于没有及时清除而影响了分类结果。本文针对这一问题提出了基于多连续属性离散化的预处理方法,用这一方法对离散化结果进行修正后,实现了对噪声数据、异常数据、错误数据的区别对待。文中以C4.5为比较对象,分别举例说明了对三种数据的判断标准和处理方法。
其他文献
现如今,政府和开发商、建筑商越来越重视安全生产管理,精益求精的施工技术以及不断增多的管理环节、日益提高的工作素质,促使研究方向从技术逐渐向如何控制整体施工质量转变.
现阶段我国经济呈现迅速发展之势,在此基础之上,建筑行业的发展也呈现出良好的态势,建筑行业的发展可以为经济的发展提供助力.在建筑行业发展的过程中仍然存在诸多问题,例如,
随着IPTV,网络游戏等高带宽业务的出现,用户对接入带宽的需求进一步增加,现有的以xDSL为主的接入方式已经很难满足用户对带宽的需求。各国电信运营商把关注的目光投向了光接入,计
随着园林工程的发展,园林施工中越来越多的种植技术被不断的应用,而反季节种植技术就是其中一项应用比较广泛的技术.为了提升园林施工中的苗木成活率,必须要加强研究和分析反
目前我国建筑行业快速发展,框架结构施工技术被广泛应用在建筑施工中.对框架结构施工技术的特点进行了相应的分析,既可在施工前做好相应的准备工作,也可以及时解决施工过程中
在建筑行业迅速发展的过程中,钢筋混凝土结构逐渐受到人们的青睐.于钢筋混凝土工程而言,在施工过程中对施工规范以及施工质量有一定的要求.现阶段先进技术不断涌现,先进技术
作为现代电子系统的核心,微处理器往往在电子系统的电磁兼容中扮演着重要角色。随着集成电路制造工艺的不断进步,特征尺寸的不断减小,微处理器的工作频率和集成度越来越高、工作
在建筑建设中,暖通空调是提升人们生活舒适度的重要设备,目前已经成为了建筑当中不可缺少的一项内容.而在实际暖通空调安装当中,还是存在着一定的问题对安装效果产生影响,对