论文部分内容阅读
DNA微阵列技术能够高通量地一次性检测成千上万个基因,这一技术高度自动化、规模化和微型化等特点,使得其可以作为研究肿瘤等复杂性疾病的重要手段。根据肿瘤表达谱数据分析,从大量的基因中挑选有意义的特征基因选择不仅能帮助我们发现与肿瘤相关的重要基因,提高分类能力,并且也降低了临床诊断肿瘤亚型的成本。一个成熟的特征基因选择方法不仅能产生具有较好分类性能的子集,并且该方法应该同时具有较好的鲁棒性。然而微阵列数据的显著特点是样本少、维度高,而据相关研究证实,这种数据更容易造成特征选择方法的鲁棒性较低。但是,现有大多的特征选择方法只关注算法的分类准确率指标,而忽略算法的鲁棒性指标,而鲁棒性差则会大大降低临床诊断的可信度。为了克服现有方法在兼顾鲁棒性以及预测准确率的不足,我们提出了一种基于遗传算法的特征基因选择方法。该方法首先利用基于累积偏差的方法剔除异常数据,以避免异常数据为后续基因选择带来负面影响。紧接着,为了提高算法的鲁棒性,我们借鉴融合分类器思想,提出融合多个基本过滤准则的综合评价方法,该方法利用不同准则在样本数据分布刻画的侧重点不同的特性,设计一种加权打分的多准则融合方法对基因进行初步筛选,该方法由于不仅考虑了多个准则之间的互补性,而且同时可以充分考虑多个准则之间的相对重要性,因此,它对于各个单个基因的评价更为客观、更为全面,从而避免单个准则的片面性。更重要的是,与以往方法不同之处在于,在基因初选阶段,我们只利用多准则融合进行筛选而并不进行排序,这样可以避免因为排序的偏差影响而对后续精选过程带来负面影响,最后利用遗传算法的对基因初选结果进行基因组合空间搜索,以寻找最优的特征基因组合。实验证明该方法有效保留了因为单个准则的偏袒性而被错误淘汰的有效特征基因,从而具有更好的预测准确率,并且具有更好的鲁棒性。