论文部分内容阅读
通常,特征基因选择的目标是找到紧凑的特征子集用以构造一个模式分类器,以提高分类的性能。特征基因选择不仅能为我们找到与疾病相关的重要基因,提高肿瘤分类能力,同时也降低了临床诊断肿瘤类型的成本。一种有效的特征基因选择方法不仅能产生具有较好分类性能的特征基因,而且该方法应具有较好的鲁棒性。基因表达芯片数据的显著特点是样本少、维度高。据相关研究证实,这种数据更容易造成特征选择方法的鲁棒性差。然而,现有的特征选择方法大多只关注算法的分类准确率,而不重视算法的鲁棒性。本文的主要研究工作如下:提出一种基于先验信息融合的特征基因选择模型。据相关研究证实当抽取的特征基因数量较少时,其分类性能较高,而当特征基因数目超过一定阈值时,分类性能反而降低,由此推测基因表达谱中的信息基因数量较少时就可以获得很高的分类性能。由此我们首先进行噪声处理以及无关基因剔除,降低特征基因的搜索空间,然后采用一种启发式宽度优先搜索算法以用于特征基因精选;同时,利用多重检验过程(MTP)对先验信息进行融合,充分利用临床可靠信息,以进一步提高肿瘤亚型分类的准确度。实验证明,该模型所选择的特征基因数目较少,且具有较好的分类性能。提出一种基于多准则融合的特征基因选择模型。基因表达谱数据具有高维、样本少的特点,容易造成特征基因选择算法鲁棒性较差,主要表现在少数样本的改变就会造成特征子集结果不同,甚至不同的特征选择方法对于同一样本数据可能产生差别较大的解集,这样容易使得研究人员不知该如何选择,从而大大降低临床诊断的可信度。在本文中,我们利用不同基本过滤准则对于样本数据分布刻画的侧重点不同的特性,对各个准则排序的基因进行打分排序,然后进行融合;同时,为了避免因为多特征融合难以刻画样本数据分布的复杂性而降低分类准确率,我们提出在多准则融合的基础上进行先验信息打分融合,然后采用基于前向-后向结合的折半基因淘汰法进行特征基因选择。实验证明该方法有效保留了因为单个准则的偏袒性而被错误淘汰的有效特征基因,该方法与其他方法的分类准确率相似,同时具有更好的鲁棒性。