关于非平衡数据特征问题的研究

被引量 : 0次 | 上传用户:lxp3754
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据集合的非平衡性指不同类型的样本量的大小较为悬殊。近年来,非平衡数据分类问题的重要性已经引起了广泛关注。然而,对于高维非平衡数据分类特征选择技术的研究并不多见。本文在回顾了非平衡数据已有方法的同时,介绍了两种新的应对方法,分别是基于类型分解的特征选择方法,以及基于Hellinger距离的特征选择方法。数据的不平衡性在现实问题中较为常见,同时针对非平衡数据的分类往往具有重要意义,因为这些少数类常常对应着较为重要的错分代价,遗漏或者错分都会带来较为严重的后果。论文第1章介绍了非平衡问题的实例,回顾了机器学习以及数据挖掘领域对非平衡问题的解决方法。从方法论的角度大致可以总结为五类,分别为抽样方法、训练集合分解方法、代价敏感度学习方法、分类器集成方法以及特征选择方法。我们在第2章综述性地介绍了前四种方法,在第3章综述性介绍了已有的特征选择方法,包括Case-Specific-IG方法、RELIEF方法、FAST方法以及一种特征选择框架。论文第4章主要介绍了提出的两种新的特征选择方法。首先在类别分解的基础上提出了一个新的特征选择方法,具体来讲,就是我们将大的类别分割成相对小的伪子类然后相应生成伪类标签,进而降低了数据的不平衡性,再通过特征选择度量对新分解的数据的特征进行选择,并基于此给出分类;其次我们介绍了基于Hellinger距离的特征选择方法,Hellinger距离度量了两个分布之间的距离,因此对于两类问题来说,如果出现非平衡性,并不影响其分布之间的距离的度量,因此该距离对于非平衡性并不敏感,可以作为度量特征和类型之间相关性的较好度量。我们提出的两种方法在往年KDDCup数据集合上均取得了较已有特征选择方法更好的分类结果。
其他文献
随着经济的高速发展和资本市场的建设,许多企业通过并购扩大规模。在企业合并的过程中,公司获取超额收益的现象日渐增多,合并商誉对于合并报表的影响不容忽视。在会计实务操
蒲松龄不仅是位伟大的文学家,而且还是一位杰出的民间音乐家。他对音乐的修养,既精深又面广。不仅掌握了大量的明清俗曲、戏曲音乐和词调;而且以琴为伴精晓琴法、音律,并熟谙多首
随着高校社团规模和数量日益剧增,为提高社团管理的规范性和便捷性,利用JavaEE主流SpringBoot框架搭建一套前后端分离模式的Web社团管理系统。系统能够迅速发布社团动态,创建
目前已经商品化的、用于超级电容器的、具有高比电容性能的碳基材料主要为活性炭和活性碳纤维(Activated carbons fibers,ACFs)材料。与传统活性炭相比,ACFs的质量比容量高,导电性
德国功能派翻译理论在二十世纪七十年代开始兴起并逐步深化。汉斯·弗米尔作为其代表人物之一,提出翻译目的论,认为翻译行为是一种有意图、有人际关系的跨文化交际行为。翻译
随着现代社会的发展,环境与能源的矛盾问题越来越引起了人们的广泛关注。对于交通运载工具来说,节能、环保就摆在突出的位置上,实现节能降耗的重要手段之一是实现构件的轻量
向自然学习是人类获得科技进步,提高生活质量的起点。科研工作者通过对自然界生物的细致观察和研究,揭示了生命能够适应环境生存繁衍的深刻道理。巧妙的生存本领为科研工作者们
2010年自治区党委书记胡春华提出“打造一流首府城市、建设一流首府经济”的要求,市委、市政府做出“一核双圈一体化”的战略部署,提出全面打造如意总部基地,并明确提出了“
紫外(UV)光固化工艺因具有固化速度快、生产效率高、污染少、节能、固化后产物性能优异等优点被广泛应用于粘合剂、涂料以及油墨等行业。合成性能优良、黏度低的光固化预聚物,不
随着集成电路、半导体元器件、光电子器件、光学器件及系统小型化的发展需求,人们对精密透镜的要求越来越高。例如我们所熟知的193nm光刻机的投影物镜对面形精度的要求达到了1