离散化算法研究与应用

被引量 : 0次 | 上传用户:z24514516210
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
连续属性离散化算法是数据挖掘和知识发现领域中非常重要的一部分,其性能的好坏直接影响到机器学习的精度和效率。大部分机器学习的工具是针对具有离散属性值的数据集设计的,然而现实生活中的数据集往往包含连续属性值(比如温度,高度等),这给机器学习的效果带来了影响,使其往往不能得到令人满意的精度。因此在进行数据挖掘之前,通过离散化算法对数据集进行预处理是非常有必要的。本文分析了现有的大部分离散化算法,并分别从算法时间复杂度,精度及效率等方面进行了比较,最终选择对CAIM算法进行改进。CAIM算法是一种全局的、静态的、自上而下的有监督离散化算法。相比于其它离散化算法,CAIM算法具有时间复杂度小,精度和效率相对较高的特点,但该算法存在着三个不足:首先,在离散化的过程中没有考虑到属性的重要性;其次,缺乏对决策表不一致率的考虑;最后,采用caim值作为离散判别式也有其不合理之处。这常常造成信息丢失,从而影响到机器学习的精度。鉴于上述三个缺点,本文提出了两种改进的算法。首先,本文针对上述CAIM算法的前两个缺点,提出了一种Improved CAIM离散化算法,该算法根据DSST差异相似集理论来度量属性重要性,在考虑决策表不一致率的情况下对数据进行进一步的离散化。通过使用C4.5和支持向量机工具进行性能分析,相比于CAIM算法,本文提出的Improved CAIM算法得到了更高的分类识别率。其次,本文针对CAIM算法形成离散区间过少导致机器学习得到的精度低的问题,提出了一种新的基于决策类和属性依赖度的离散化算法——λ-CAIM。该算法采用统计学中常用的λ相关系数做为离散化判别式,避免了采用caim值作为离散判别式时产生的问题。实验表明,该算法在分类学习时得到了更高的分类识别率。
其他文献
机床行业是装备制造业的基础行业,是向传统机械工业、国防工业、汽车工业、航空航天工业、电子信息技术工业以及其他加工工业提供加工装备的部门。由于机床行业处于成熟期,产
保底加抽成结算模式是商超与供应商的主要结算模式,由于抽成金额、保底额、实际销售额相互的金额大小不同,会出现不同的结算涉税问题,本文对不同情况下的结算涉税问题进行了分析
随着信息技术发展,翻转课堂已成为教育改革的新方向。本研究对翻转课堂教学模式在组织学与胚胎学教学中进行了尝试与探索,结果显示学生对翻转课堂教学的欢迎度较高,且在提高
生态问题已经成为当今世界制约可持续发展最为重要的问题,沈阳市位于辽河冲击平原与东部山区的衔接地带,是东北地区的政治、经济、文化、科技、交通中心。生态环境建设对该地
港口城市是城市的一种特定形式,是港口和城市的有机结合。城市和港口相互依赖,相互促进。港口的发展将促进其依托城市的繁荣,城市的繁荣也将促进港口的进一步发展,两者之间相
作为生命线系统的重要组成部分,埋地管道系统是社会和经济赖以生存与发展的物质基础,埋地管道系统主要应用于给排水系统、供气系统、输油系统、供热系统等。历史经验表明,地
目的:研究二羟丙茶碱对手术机械通气肺保护作用。方法:选取本院2016年1-10月长时间机械通气全麻择期手术患者60例,排除术前合并呼吸系统疾病的患者,随机分为二羟丙茶碱组(A组)和
目的:探讨狼疮性肾炎(lupus nephritis,LN)患者肾功能快速进展的危险因素。统计描述患者的临床症状与实验室指标,分析其与肾功能快速进展的相关性,为LN患者的临床防治提供依
通道是从交通隧道、地铁站台通道、地下商业街等建筑抽象出来的一种典型建筑形式。随着城市建设和隧道工程的快速发展,国内外均建成了大量的通道形式结构。然而,近些年来,在
20世纪90年代以来,热泵系统在我国得到了广泛的发展应用,与此同时,再生水源热泵由于其独特的优点也越来越得到暖通专业人士的关注。近年来已经有一些再生水源热泵供暖工程在