基于数据划分与不平衡数据集加权的KNN算法改进

来源 :云南大学 | 被引量 : 0次 | 上传用户:lijing1671
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
21世纪是信息技术飞速发展的一个世纪,人们每天都生活在充斥着各种各样信息的世界里。如何对海量的数据进行分类,从中获取有用的信息,是当前技术急需解决的一个重要问题。数据挖掘领域的分类技术可以很好的解决这一问题。K最近邻算法是一个经典的分类算法,然而目前传统的K最近邻算法在面对大量数据时还存在一定的缺陷,主要是算法的运行效率较低,以及在不平衡数据集上分类正确率不高的问题。针对算法的运行效率问题,本文提出了基于数据划分思想的分类算法的改进方法,包括BINER算法与CLUEKR算法。BINER是基于二分法的数据划分算法,它将数据集分为多个子数据集,之后计算子数据集之间的相似度,根据相似度的大小选择相应的子数据集,从而缩小待查询数据集,提高算法运行效率。CLUEKR是基于分层聚类的数据划分算法,它把数据集自顶向下的进行分层聚类,将数据集分为多个子聚类,同样根据子聚类之间相似度的计算,选择满足条件的子聚类,缩小数据集,提高算法的运行效率。上述算法都不是直接对待分类的数据进行处理,而是通过数据划分有效的缩小待查询数据集,最终使得算法的运行时间降低,达到提高算法的运行效率的目的。针对K最近邻算法在不平衡数据集上分类的正确率不高的问题,本文提出了加权K最近邻算法。该算法对不平衡数据集中的少数类进行了加权设计,从而降低了少数类分布不均衡带来的影响,提高算法的正确率。加权设计方法主要为:简单的加权设计、增强因子的加权设计以及添加修正系数的加权设计。通过上述设计把权重分配给每个类,并确保所分配的权重不会对异常值产生不利的影响。最终提高了 K最近邻算法在不平衡数据集上分类的正确率。最后,本文将改进的加权K最近邻算法与CLUEKR算法相结合,设计了一种考虑到数据性质的高效准确的K最近邻算法,简称CW-KNN算法。
其他文献
油菜作为4大油料作物之一,因其高产油量、高营养价值与良好的种植特性在我国具有悠久的种植历史,而其产品菜籽油因其丰富的营养成分已成为人们日常食用用油的必需品,故油菜是
缅甸是第一个承认新中国的非社会主义国家,也是第一个同中国解决边界问题的国家。两国建交以来,除了在二十世纪六十年代中期经历过一定的波折外,长期保持友好关系。改革开放以后,中缅关系进入稳定发展阶段。本文以1949年新中国成立为研究起点,以1991年苏联解体、冷战结束为研究终点。这一时期中国共产党及毛泽东、周恩来、邓小平等领导人为维护周边环境安全,对中缅关系的发展起到了重要的推动作用。本文以冷战时期中国
随着微电子封装技术向高集成度、高性能的方向发展,TSV转接板技术已经成为最有效的高级封装技术之一。在三维集成技术中,TSV转接板为各种功能各种基材的芯片如数字芯片、模拟
有着2500多年历史的民主,自希腊历史学家希罗多德提出后就备受关注。民主的形式也在经历着不断地变化。作为当代著名的政治学家,罗伯特.达尔在考察政治现实的过程中通过对各
基于发布/订阅模型的数据分发服务DDS是OMG组织提出的一个分布式实时中间件通信规范,它除了提供高效的通信机制,还拥有丰富的Qo S策略,如今已经广泛应用于国防、民航等领域。
语言中的词汇对社会生活的变化极为敏感,需要不断的借用创新去适应层出不穷的新事物新概念,民族间的语言借用现象是普遍存在的。[1]藏族社会的发展变迁与藏语的发展变化紧密
中国经济的飞速发展离不开房地产行业从2000年至今迅猛扩张所提供的贡献。每年国家土地出让金的收益已经成为地方政府财政占比最大的一部分收入。然而随着土地价格的不断上涨
目的:观察益肾化瘀降浊方治疗慢性肾衰竭肾气亏虚、血脉瘀滞证的临床疗效,对比治疗前后患者的中医症状分级量化积分、血清肌酐、血尿素氮、血清胱抑素C、肾小球滤过率估算值和24小时尿蛋白定量的变化情况,为临床治疗慢性肾衰竭提供新的思路和更为有效的方法。方法:选择2019年1月至2019年9月于石家庄市中医院肾病二科门诊及住院病房就诊,且符合病例选择标准的慢性肾衰竭肾气亏虚、血脉瘀滞证患者,共60例。将收集
射流冲击传热技术因其局部传热系数高而广泛应用于各行各业。基于非定常射流冲击拥有更好的强化换热潜力,本文的研究目的在于揭示非定常射流强化传热的影响因素,从机理上分析
随着科技进步和经济发展,我们的生活逐渐向多元化、便利化转变,但是发展带来的安全威胁不容忽视。工业废水、医药废水、农田废水的不达标排放已经污染我们赖以生存的水资源。水体环境的不断恶化导致生物多样性锐减,威胁人类生命安全,因此,开发高效的污水处理技术迫在眉睫。芬顿氧化法作为一种高级氧化技术,利用Fe2+和H2O2作为芬顿试剂产生羟基自由基(·OH)。羟基自由基几乎可以无选择性地对有机污染物进行降解,降