论文部分内容阅读
在生物信息学领域,DNA微阵列技术的出现是一个具有里程碑意义的重大技术突破。随着研究的不断深入,它已被广泛应用于药物研究、基因测序等众多领域,具有极高的应用价值和广阔的发展前景。然而在实际应用中,DNA微阵列技术研究的基因组对象规模越来越大,特征维数也越来越高,最终获得的基因表达数据不仅具有高维小样本的特点,还含有大量和样本分类无关或对样本分类作用很小的冗余基因和噪声基因。基因表达数据的这些特点会提高机器学习的时间及空间复杂度,降低分类精度,最终在疾病诊断等实际应用中会增加成本,降低疾病预测的准确度。因此,为提高基因表达数据的分类精度,本文从两方面着手进行研究:一方面对分类算法进行改进,另一方面通过提出有效的特征选择方法以筛选出关键基因,剔除冗余和噪声基因,降低基因特征维数,提高机器学习效率。研究的主要内容如下:(1)正则极限学习机(RELM)是在极限学习机(ELM)的基础上提出来的,具有简单易用、分类精度较高、泛化能力好等优点。然而RELM的输入层权值、隐含层偏差是随机给定的,会影响RELM的稳定性。另外,RELM为了获得较理想的分类精度,仍需设置较多的隐层节点。针对此问题,通过分析粒子群算法(PSO)的原理,把RELM初始产生的输入层权值、隐含层偏差作为粒子带入PSO进行寻优,提出了一种粒子群改进RELM(PSO-RELM)。在UCI数据集上的仿真实验表明,PSO-RELM相对BP神经网络、支持向量机(SVM)、RELM具有更好的分类精度和更佳的稳定性。(2)提出一种结合互信息最大化(MIM)和自适应遗传算法(AGA)的特征选择方法(MIMAGA-Selection),其中选择ELM作为分类器来计算样本的分类精度。首先根据源数据集中各基因和不同类别的互信息最大化进行分组和筛选,形成一个初选基因子集;然后运用以样本分类精度作为适应度函数的自适应遗传算法对初选基因子集进行寻优,最终得到一个最优基因子集。通过在3个UCI标准数据集上进行的实验表明,该方法能有效剔除冗余基因和噪声基因,显著提高样本分类精度。