不平衡数据分类中特征选择算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:FANSHENGHUA2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的分类算法的实验验证大多是在平衡数据集上进行的,而在现在的实际应用中,不平衡的数据集越来越常见,如信用卡欺诈分析、医院对患者进行自动诊断等等。传统的分类算法在这些不平衡的数据集上取得的效果都不尽人意,因此对不平衡数据集上的数据分类方法的研究具有较大的实际应用价值。本文首先介绍了传统数据分类方法以及不平衡数据集的数据分类方法。分析了特征选择的概念及特征选择的基本过程,探讨了传统的特征选择方法在不平衡数据集上所面临的一些问题。Relief算法是特征选择中的经典算法,在大量的实验研究中都证明了能够在平衡数据集上取的较好的效果。为了使得Relief算法能够更好的应对不平衡分类的问题,借鉴代价敏感的思想,在Relief算法中引入一个代价因子,提出了一种改进的Relief算法。经过在不平衡数据集上实验分析,表明改进后的Relief算法可以获得比传统的Relief算法更好的分类性能。集成学习方法是通过集成多个不同的分类器以达到更好分类性能的方法。将集成学习方法应用到不平衡分类的特征选择上,先使用抽样的方法从不平衡数据集中生成一组不同的平衡数据集,在每个数据集上使用传统的Relief算法,最后对结果进行汇总,由此提出了一种基于集成学习的特征选择算法。经过在数据集上的实验可以发现其性能要优于传统的Relief算法。
其他文献
青少年是祖国的未来、民族的希望,也是中国特色社会主义事业的希望。培育社会主义核心价值观应当面向全体公民,但青少年是重点。培育青少年的社会主义核心价值观,是促进青少年健
报纸
我军首批授衔的老将军中,独腿、独臂的将军共有13位,其中12位已离开了我们,唯有独臂将军陈波健在。他今年97岁,看书读报,接待来客,照旧谈笑风生,他一生坎坷,九死一生,充满传奇。
自动驾驶汽车的社会化应用引发了诸多风险。为回应社会的安全需求,在提供事后的救济外,预防性的准入规制亦应尽快提上日程。自动驾驶汽车的准入规制在安全与创新的双重规制目标的指引下,可从技术标准和行政许可两个层面加以探讨。其中,技术标准构成自动驾驶汽车准入规制的实质性要件,行政许可则是保障技术标准实效性的一项重要制度。自动驾驶汽车的许可可放置在道路测试和商业运营等场景下探讨。本文认为,除车辆技术标准之外,
加强可再生能源国际合作是中国对外能源战略多元化的一项重要内容,并已形成以《京都议定书》框架下清洁发展机制为核心的全球多边合作途径和以欧美日为主要对象的双边合作途
无线充电技术是电子行业增长最快的领域,得到了广泛应用.消费者对电池供电便携式电子设备的需求,以及极不方便的不断进行充电等因素促使该技术的应用高速增长.具有无线充电功
近年来,随着生活水平的不断提高,人们对织物面料服用性能要求也越来越高。涤纶与锦纶复合丝这种新型的面料,以其良好的服用性能受到人们的青睐。涤纶与锦纶复合丝具有三度空间的
目的研究褪黑素对大鼠肺缺血再灌注损伤的保护作用及其可能机制。方法选取成年雄性大鼠36只,建立大鼠肺缺血再灌注损伤模型,依次分为假手术组,缺血再灌注组以及褪黑素预处理
近年来,我国的高速公路建设有了长足的进步,新建高速公路以多车道为主。随着车道数的增加,由高速公路自身固有属性而引起的交通拥堵已经越来越少,但由车辆间相互作用、随机扰动而引起的交通拥堵却呈上升趋势。而其主要原因是由于我国高速公路以混行交通流为主,且大型车辆占比较高。由于大型车辆自身性能以及载重等因素,其速度与其他车辆存在差异,从而导致了高速公路上产生了大量的“移动瓶颈”。与固定瓶颈不同,移动瓶颈的位
当架空输电线路发生故障时,必须对线路进行快速准确的故障测距,目前架空输电线路故障测距所采用的方法有阻抗测距法和行波测距法.通过介绍这两种测距方法的工作原理及其各自
“居楚而楚,居越而越,居夏而夏,是非天性,积靡使然。”这是《荀子.儒效》中的至理名言。不同的文化环境,会使人形成不同的习俗和文化特质,这些不是天性,而是长期积习和磨炼造