论文部分内容阅读
在模式分类问题中普遍存在着数据集不平衡的现象,即不同类的样本在数量和分布上存在较大差异。非平衡数据的分类具有着重要的现实意义,因为少数类样本通常伴随着高昂的错分代价,错分或遗失这些样本都会对分类结果带来严重的影响。有学者认为,支持向量机作为处理非平衡问题的理想工具,因其分类决策过程仅仅受少数支持向量的影响,而与其它样本无关,样本总体的类不平衡对分类结果的影响有限。然而,实验表明,支持向量机并不总是能很好地解决非平衡分类问题。本文通过对数据分布的观察,提出类不平衡并非简单地体现为不同类别样本数量上的差异,更本质地,应该是分界面附近的二类分布密度之比。本文首先通过人造数据展示了支持向量机并不适于所有非平衡数据的这一内在原因,从而很好地解释了为什么支持向量机在处理某些非平衡数据时表现突出,而不适用于其他数据的现象。其次基于反转K近邻法和K近邻密度估计法估计分界面附近两类样本密度之比,并选用估计的密度比作为均衡化处理的比例。实验表明,该方法是有效的,在大部分非平衡数据中取得了较好的效果。 模式分类中另一个重要问题是多分类特征选择,其设计目的在于为多个子类寻找一个共同的最优特征子集,本质上是一个多目标优化问题。目前很多研究都建立在一定存在共同最优特征的前提假设上,寻优方向也仅朝向这些共同特征,较少考虑对于某些单类判别能力更优的特征,本文针对每一类寻找判别特征,提出对多分类基因表达数据进行分类别的特征选择,并基于概率组合多分类SVM将子SVM模型进行结合,取得了较好的分类效果,并大大降低了原问题的求解复杂度。进一步地,由于同样存在着样本不平衡的问题,本文将前文中分界面附近密度比例估计法运用于面向局部特征的多分类特征选择中,并在6个多类基因数据上的实验中证明了均衡化处理后的面向局部特征的选择方法能为准确率带来一定的提升。