论文部分内容阅读
虽然传统基因选择方法能够获得紧凑的信息基因子集,但由于它们没有考虑到基因表达谱数据中蕴含的先验信息,从而导致选择到的基因子集在分类预测性能上仍然有较大的提高空间,并且选出的基因可解释性较差。为了克服传统方法的不足,本文在充分考虑基因类别灵敏度(gene-to-class sensitivity, GCS)信息的基础上,利用K-均值(K-means)聚类和二进制微粒群优化(BPSO)算法进行基因选择。该类方法能够获取低冗余、高预测性的基因子集,并在多个基因表达谱数据上获得了优于经典基因选择方法的性能。本文的主要工作如下: (1)提出了一基于GCS信息、 K-均值聚类和BPSO算法的混合基因选择方法(KMeans-GCSI-MBPSO-ELM)。首先,通过单隐层前馈神经网络利用极限学习机(ELM)从基因表达谱数据中提取GCS信息的先验信息;其次,在对初始备选基因库K-均值聚类基础上,根据GCS信息过滤低灵敏度的基因以形成二级备选基因库;最后,再将GCS信息编码进BPSO算法之中做进一步基因选择。在多个公开的基因表达谱数据集上的实验结果表明,相比其他经典的基因选择方法,由于充分考虑各个基因与类别相关的灵敏度信息,因此能够选出较少基因但预测性能更高的基因子集,并且选中的基因具有较高的解释性。 (2)针对KMeans-GCSI-MBPSO-ELM方法中冗余基因去除时会出现的“误删除”现象,提出了一改进的KMeans-GCSI-MBPSO-ELM方法(IKMeans-GCSI-MBPSO-ELM)。在IKMeans-GCSI-MBPSO-ELM方法中,首先运用Elbow方法确定K-均值聚类中合适的聚类数;然后结合GCS信息,运用PSO算法寻找K-均值聚类中最优初始聚类中心,进而优化了聚类结果,使得优化后的各聚类内各个基因的GCS值更加紧凑,从而使得应删除与应保留的基因簇之间的界限更加明晰。在多个公开的基因表达谱数据集上的实验表明,该方法能有效地降低“误删除”现象出现的可能性,从而选中一些GCS值相对较低但与样本类别关联大的基因。对比KMeans-GCSI-MBPSO-ELM和其它经典的基因选择方法,IKMeans-GCSI-MBPSO-ELM方法能够选择出数目更少,分类预测性能更高的基因子集。在多个公开的基因表达谱数据集上的实验结果也验证了该方法的有效性。