面向不平衡数据的马田系统分类方法及其应用研究

来源 :南京理工大学 | 被引量 : 2次 | 上传用户:rdhbrth565657ki
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类问题作为数据挖掘技术中的研究热点之一,其应用遍及各行各业。现有的一些分类方法,一般基于平衡的训练样本,因而它们对平衡数据的分类能取得较好的分类效果。然而,在实际问题中,数据平衡这一假定通常不成立,例如信用评估、故障诊断、入侵监测等,通常获得的数据集会出现类别间样本不平衡,并且同时伴随着类重叠、噪声干扰等现象。因此,解决此分类问题具有很强的理论意义和实用价值。马田系统(Mahalanobis-Taguchi System,MTS)是一种面向多元数据的分类、诊断和预测的定量模式识别方法。MTS有着诸多优点,如:MTS是基于数据的分析方法并可以实现真正意义上的降维,简化分类问题,并提高分类的精度和效率;MTS构建了一个连续的测量尺度,计算的是测试样本偏离基准空间的程度,这样有利于采取相对应的解决措施,提高解决问题的柔性。但作为一种新兴的方法,MTS在理论和应用上仍存在一些不足之处。本文面向不平衡数据,针对传统MTS存在的问题,采用多变量控制图、混沌二进制粒子群算法、核函数、AdaBoost集成算法等方法对其进行改进,目标是发展MTS成为一种适用于不平衡数据分类的高效方法。本文的研究工作主要包括以下几方面的内容:(1)面向不平衡数据的MTS基准空间样本优化研究MTS在面向不平衡数据分类时,通常是由样本数目较多的多数类来建立基准空间,比如疾病诊断中的健康人群。针对传统MTS仅依据专业知识和历史经验确定的基准空间中可能存在异常点或者噪声混入的问题,本文根据多变量控制图原理对所有建立MTS基准空间样品的适合性进行判别,并通过UCI数据集进行可行性分析,以便从源头上来确保MTS方法的有效性。研究表明:构建基准空间的样本经过多变量控制图优化之后,MTS的分类性能得到了提高。(2)面向不平衡数据的MTS基准空间变量优化研究传统MTS采用正交表和信噪比的方法来进行基准空间的变量优化,即进行有效特征变量选择,其所筛选出的特征变量的信噪比未必比较大,且已证实正交表并不是最优变量子集的选择策略。本文综合考虑不平衡数据的分类效果和降维能力,利用混沌二进制粒子群优化算法,以望小特性的分类错误率和望大特性的降维效率为优化目标,以正常样本、异常样本和特征变量为优化对象,分析优化对象类型和取值范围等约束条件,建立MTS基准空间变量优化的模型。为了验证此模型的分类能力和效果,选取常用基准分类数据集,并将其与其他常用分类方法进行比较分析。研究表明:融合优化算法的MTS在面向不平衡数据时不仅有着较好的分类效果,而且还有着良好的降维效率,其可以应用于不平衡数据的分类问题中。(3)面向不平衡数据的MTS测量尺度改进研究MTS的分类原理是将待分类样品的马氏距离与阈值进行比较从而判断其所属类别,当存在类重叠现象时,马氏距离的区分能力较弱,因此目前MTS在分类领域中主要应用于线性可分数据,并取得了良好的效果;然而面对线性不可分数据时,MTS的分类效果并不理想,尤其是在数据不平衡的情况下,对少数类别的误判率会较高。针对此情况,研究借鉴支持向量机、核Fisher判别分析等算法的思想,将核函数引入MTS中,并将其与马氏距离结合,形成核马氏距离,代替原有的马氏距离成为MTS新的测量尺度。这样可以通过核函数的隐性非线性映射将输入数据映射到高维特征空间中,然后在高维特征空间中进行MTS线性分类,从而让MTS能够很好地处理类重叠问题,并将此方法应用于抗干扰信号采集设备故障诊断的实证研究中。研究表明:此方法能很好地应对类重叠问题,具有良好的实际应用价值。(4)面向不平衡数据的融合AdaBoost集成算法的MTS分类研究集成算法可以使分类结果稳定,正确率更高,目前应用最广泛的为Bagging和AdaBoost两种集成算法,AdaBoost相对于Bagging算法稍显复杂,但更为巧妙,且一般来说是效果更优的集成分类算法,尤其是在数据不平衡的情况下,其优势更为显著。针对不平衡数据本身的性质,将优化马田系统作为基分类器,与AdaBoost集成算法相融合,采用多个评价指标,在基准数据集上进行实验分析,并将其应用到我国上市公司的财务危机预测研究中,且考虑到财务数据的类重叠性,采用核马氏距离作为其测量尺度。研究表明:与传统的MTS、优化MTS及其他常用的单一分类器相比,集成算法的分类性能和降维效果更优,且结果更稳定。综上所述,本文以不平衡数据分类问题为研究对象,针对MTS的不足,以MTS改进为主线,以优化算法、核函数等理论为主要手段,目标是发展MTS使其成为一种实用高效的、适合于不平衡数据的分类方法,并应用于现实问题的研究中。
其他文献
信息技术和大数据同步发展,相辅相成,在生产生活中发挥越来越大的作用。云平台成为当前各行业以数据驱动的发展的重要助力。近年来矿业信息化以“工业4.0”为引擎高速发展,向
英语原声电影因具有场景性和主要作用于口语听说交流等特点,加之每一部电影都具有其背后可深层挖掘的文化背景知识输入,成为教师在大学英语课堂活动中经常使用的不可或缺的教
文章讲述了直升机液压系统的功用及组成,对直升机液压系统的现状进行了分析,并对液压系统未来的发展趋势进行了论述。
目的对小剂量阿司匹林联合氯吡格雷治疗缺血性脑血管病的临床效果及安全性进行研究。方法选取2015年5月~2016年5月我院收治的缺血性脑血管病患者60例作为研究对象,将其随机分
为了探究除草剂对萝卜幼苗逆境生理指标的影响及萝卜幼苗的最佳除草剂使用浓度,以萝卜幼苗为试验材料,采用溶液培养的方法,用不同浓度的除草剂15%精吡氟禾草灵乳油处理萝卜幼
比较研究了电力与石油(汽柴油)、天然气在新能源汽车、分布式能源系统等终端能源之间的竞争态势,并基于大数据关联分析及计量模型回归分析等方法,对竞争关系进行了实证,得出
<正>六盘水市钟山区采取"政府引导、市场配置、社会参与、保护开发"的方式,实施"水城古镇"改造,塑造旧城形态、延续旧城文态、更新旧城业态、重构旧城生态,打造全国首个"三线
奥林匹克运动作为一项世界性的盛事,一种独特的文化现象对整个人类社会(包括我们中国)发展和进步具有重大意义和崇高价值。随着北京奥运会开幕式一幅令人叹为观止的"画卷",一
刚挠结合板是近几年PCB行业重点发展的新产品,广泛应用于航空航天、医疗、高端电子产品。作为目前PCB行业中利润最高的产品,全球众多的在PCB行业有重大影响力的PCB制造商都在
国内对便捷式网点检测的研究很少,市面上现有的便携式网点测量仪器大多都来自国外,价格较高。随着智能手机的普及和性能的提高,手机能高效地完成很多图像处理的算法,但是基于