论文部分内容阅读
二十世纪末,在分子生物学领域出现了一项高通量的测序技术,即D NA微阵列技术,它可以在一次实验中同时测试细胞中成千上万个基因活性,使得以前对单个基因的研究进入到了基因组学研究时代。通过对基因表达谱进行数据挖掘可以检测组织在病变前后的变化及用药前后的改变,对于研制新药、弄清疾病发生、发展机理及诊断疾病等具有重要意义。基因表达谱数据具有高维、小样本、高噪声、高冗余以及连续型等特点,这对传统数据挖掘方法的应用提出了更高的要求。本文在梳理、分析和总结现有数据挖据方法的基础上,针对目前基因表达谱数据挖掘方法中所存在的问题展开,主要从特征基因选择和组织样本分类两方面进行针对性研究。研究内容和主要成果如下:(1)提出了基于优化的邻域互信息的特征基因选择方法。首先采用ReliefF算法对所有基因进行排序,并取其前k个基因作为初选基因子集,剔除了噪声等无效基因,既降低数据维数,又提高数据质量;然后,针对邻域半径对邻域互信息模型性能的影响,采用差分进化算法实现邻域互信息半径的优化;最后,以基于最优半径的邻域互信息为度量,采用前向贪婪搜索策略设计了改进的邻域互信息模型实现基因终选,进一步剔除了噪声和冗余基因,获得了具有更高识别性能和明确的生物意义的特征基因。仿真实验结果表明,本章提出的方法获得的特征基因的识别精度和特征基因数量等方面明显优于ReliefF、Kruskalwallis、Gini Index、MI和NMI等方法。(2)提出了基于改进的和声搜索算法的特征基因选择方法。首先采用Kruskal-wallis算法对基因进行初选,以降低和声算法搜索空间的维数,保证和声算法的优化精度和收敛速度;然后针对标准和声搜索算法的不足,分别对当前种群中的最优、最差和声进行进化操作的同时,融合教与学优化算法中个体更新方式,设计了一种改进的和声搜索算法实现特征基因选择。仿真实验结果表明,本章提出的方法在分类精度、时间效率和稳定性等方面优于标准HS以及相关改进算法IHS、EHS和GHS等。(3)提出了基于改进的旋转森林算法的集成分类方法。首先针对分类信息指数法只能处理二分类问题的局限,提出了改进的信息分类指数法(即多类别分类信息指数法)对基因进行过滤,以剔除噪声基因,降低数据维数、提高数据质量;然后针对旋转森林算法的不足,充分考虑基分类器的差异性和准确率两个因素,采用异构集成、样本扰动以及数据净化等方法,设计了改进的旋转森林算法进行样本分类。仿真实验结果表明,本章提出的方法在分类精度、稳定性和运行时间等方面要优于标准旋转森林(Roation Forest)和其它改进旋转森林(Improved RoF)以及经典集成算法Bagging和Adaboost等。(4)提出了基于改进的教与学优化算法的选择性集成分类方法。首先利用bootstrap技术进行样本扰动产生多个彼此之间具有较大差异性的样本子集;然后在每个样本子集上基于Kruskal-Wallis和邻域互信息进行双重特征扰动,进一步增加了训练子集之间的差异性,而且同时提高数据质量;最后针对教与学优化算法易陷入局部最优、收敛速度慢及优化精度不高等不足,从“教”与“自学”过程入手,借鉴遗传算法的交叉与变异操作,设计了一种改进的教与学优化算法实现基分类器的选择性集成。仿真实验结果表明,本章提出的方法在分类精度、集成规模、稳定性以及可靠性等方面明显优于Bagging、Adaboost、Roation Forest等集成方法以及基于TLBO、MTLBO的选择性集成分类等算法。