论文部分内容阅读
近年来,随着计算机技术的快速发展和在生物医学领域的广泛应用,尤其是DNA芯片技术的出现,为癌症的分类诊断及其形成机制的研究和治疗提供了新的思路,同时也致使大量含有高维特征信息的基因表达数据涌现。特征选择作为一种高维数据的维数约减方法,可以有效剔除冗余和不相关基因,保留数量规模小且与分类任务相关的关键基因,不但能降低算法时间复杂度,减少维数灾难,同时可以提高分类模型对癌症的识别准确率,在癌症基因表达数据的分析研究中至关重要,具有实际性的研究意义。微阵列基因表达数据集具有高维、小样本的特性,且包含大量和特定的疾病不相干和冗余基因,若干个关键致病基因可以导致样本间的差异,这些特点使得传统的特征选择算法面临前所未有的挑战。除此之外,类别不平衡性也是癌症基因数据集的一个重要特点。类别不平衡数据的处理办法主要包括代价敏感学习、样本重采样、特征选择和集成学习等方法。在对癌症基因表达数据集的实际处理中,单独针对高维小样本基因数据或者不平衡基因数据的特征选择算法面临性能上的瓶颈,如何从高维小样本且类别分布不平衡的原始基因数据中选择出有效可靠的基因子集,是基于微阵列基因数据对癌症疾病进行诊断分析亟待解决的问题。因此,本文针对癌症基因表达数据集的特性和存在问题,从特征选择和基因子集评价的角度对不平衡癌症基因表达数据的分类问题进行研究。本文的主要工作有:(1)针对二类不平衡特征选择算法 ARCO(AUC and rank correlation coefficient optimization)和适用于多类不平衡特征选择算法MAUCD(Using MAUC as the relevance metric to rank features directly)、MDFS(MAUC decomposition based feature selection method)存在的缺陷:改进Pearson相关系数并度量特征冗余,同时对特征冗余性和相关性度量范围进行归一化,提出APCO(AUC and improved pearson correlation coefficient optimization)算法以克服 ARCO 的不足;提出改进的 Pearson相关系数,使其适用于度量多类数据特征间冗余,得到基于mRMR(Maximal relevance-minimal redundancy)框架的 MAUCP(MAUC and improved pearson correlation coefficient optimization)和 MDFSP(MDFS and improved pearson correlation coefficient optimization)算法,并且克服了 MDFS算法易选择到局部最优特征子集的问题。采用 SVM(Support vector machine),NB(Naive bayes)和 KNN(K-nearest neighbor)为分类器,在7个二类和3个多类不平衡基因数据集上验证算法的有效性。检验结果揭示,本文提出的算法优于相应的原始算法,也优于其它经典特征选择方法。(2)为了从高维小样本且类别分布非平衡基因数据集中获得关键区分基因,提出F2准则、归一化互信息SU(Symmetrical uncertainty)、特征权重归一化方法及动态权值 SFS(Sequential forward search)和 SFFS(Sequential forward floating search)搜索策略。为了加快基因选择过程,提出基因预选择方法,以减少备选基因子集规模。最后依据最大相关最小冗余框架和最大化AUC思想,提出多种适用于不平衡基因数据的基因选择方法。在3个不平衡基因数据集的实验测试表明,提出的基因选择算法均能选择到规模小、性能优的基因子集,充分证明了算法思想的正确性。(3)针对基因选择过程中基因间相关和冗余关系,提出一种新颖的快速基因选择算法 FSDI(Feature selection based on discernibility and independence of the feature)。该算法定义了基因辨识度和独立性的概念,以基因辨识度度量基因的类间区分能力,以基因独立性度量基因间的相关关系。为了快速自动确定被选基因子集,以特征独立性为纵坐标,辨识度为横坐标,构造特征独立性与辨识度2D空间,以特征独立性与辨识度在2D空间所围矩形面积度量相应特征重要程度。首先采用K-means方法对数据基因聚类,依据基因权重从各类簇选取一定量的代表基因,全部类簇的代表基因构成预选特征子集,然后从运用FSDI算法从预选基因子集中选取最终基因子集。5个基因表达数据集的验证表明:本文提出的FSDI方法能快速获得类别识别能力很好的关键基因,基于关键基因的KNN和SVM分类器有着较好的类识别能力。