非平衡多分类问题的分类和特征选择方法研究

来源 :厦门大学 厦门大学 | 被引量 : 0次 | 上传用户:sophiea123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在模式分类问题中普遍存在着数据集不平衡的现象,即不同类的样本在数量和分布上存在较大差异。非平衡数据的分类具有着重要的现实意义,因为少数类样本通常伴随着高昂的错分代价,错分或遗失这些样本都会对分类结果带来严重的影响。有学者认为,支持向量机作为处理非平衡问题的理想工具,因其分类决策过程仅仅受少数支持向量的影响,而与其它样本无关,样本总体的类不平衡对分类结果的影响有限。然而,实验表明,支持向量机并不总是能很好地解决非平衡分类问题。本文通过对数据分布的观察,提出类不平衡并非简单地体现为不同类别样本数量上的差异,更本质地,应该是分界面附近的二类分布密度之比。本文首先通过人造数据展示了支持向量机并不适于所有非平衡数据的这一内在原因,从而很好地解释了为什么支持向量机在处理某些非平衡数据时表现突出,而不适用于其他数据的现象。其次基于反转K近邻法和K近邻密度估计法估计分界面附近两类样本密度之比,并选用估计的密度比作为均衡化处理的比例。实验表明,该方法是有效的,在大部分非平衡数据中取得了较好的效果。  模式分类中另一个重要问题是多分类特征选择,其设计目的在于为多个子类寻找一个共同的最优特征子集,本质上是一个多目标优化问题。目前很多研究都建立在一定存在共同最优特征的前提假设上,寻优方向也仅朝向这些共同特征,较少考虑对于某些单类判别能力更优的特征,本文针对每一类寻找判别特征,提出对多分类基因表达数据进行分类别的特征选择,并基于概率组合多分类SVM将子SVM模型进行结合,取得了较好的分类效果,并大大降低了原问题的求解复杂度。进一步地,由于同样存在着样本不平衡的问题,本文将前文中分界面附近密度比例估计法运用于面向局部特征的多分类特征选择中,并在6个多类基因数据上的实验中证明了均衡化处理后的面向局部特征的选择方法能为准确率带来一定的提升。
其他文献
倒立摆的控制是控制理论应用的一个典型范例。倒立摆系统作为一个非最小相位、强藕合、多变量的绝对不稳定非线性系统,通常被用来检验控制策略的有效性;同时,由于倒立摆系统控制
微机械技术的进步,使科学家们能够设计出象大的昆虫一样的机器人,它们装有各种传感器、光学装置及通信设备。随着进一步的微型化,科学家们预言,他们将会设计出肉眼几乎看不
随着信息技术的快速发展,数据量呈现爆炸性的增长,存储系统中的文件种类各种各样,文件数目不断增多,如何应对企业存储峰值和机密数据的保存成为当前急需解决的一个问题。混合
金属热处理炉是冶金行业中重要的组成部分,热处理炉的控制水平直接影响着产品的质量和能耗。随着工业自动化水平的提高,降低生产成本、提高品质、减少污染已成为企业改造的重要
在海上巡逻和海上作战过程中,由于水雾散射、海面波光的反射以及海空背景低照度的影响,常常使得成像设备拍摄出的照片带有很大的模糊和目标细节的丢失,这对海上目标的识别和跟踪
结合丰益(佳木斯)食品工业有限公司在实际进行水平衡测试过程中的经验,对水平衡测试的方法和步骤进行了论述,通过丰益(佳木斯)食品工业有限公司的节水过程进一步说明水平衡测试在企
视觉跟踪定位技术是船舶跟踪与三维定位技术中的一个分支,该技术常采用摄像机作为图像采集模块,将实时的位置信息反馈到跟踪定位系统中进行计算处理。但由于轮船发动机以及舰
生物按照细胞类型分类有真核生物与原核生物,本文主要从真核生物与原核生物两个角度研究生物信息领域的意义所在。  随着高通量测序技术的发展,大量物种被测序并装配获得基因
采用自动配置的无线传感器网络(Wireless Sensor Networks, WSN),是近几年全球范围的新技术研究热点之一。它集成了无线通信技术、传感器技术、微机电系统技术和分布式信息处
随着材料科学与技术的发展日新月异,新材料、新技术、新工艺和新方法层出不穷,材料信息的数据量和复杂性也大大提高。航天先进功能材料数据管理系统将各种涉及材料方面的数据(