论文部分内容阅读
随着人类基因组计划的进行,DNA微阵列技术已经运用到肿瘤疾病研究中。DNA微阵列技术产生了大量维数高、样本少的基因表达数据。如何从基因表达数据中挖掘出有用的知识和信息,对恶性肿瘤辅助诊断已经非常重要。本文针对基因表达数据,进行分类算法研究。分类问题广泛存在于现实世界中,是数据挖掘和模式识别领域的重要研究内容。近年来,随着数据挖掘和模式识别技术的日益成熟,分类技术已在工业、医疗、金融、互联网、科学研究等领域得到了广泛的应用。本论文从算法设计和仿真试验两方面,研究模糊极限学习机和嵌入代价的极限学习机分类问题,主要研究内容和成果如下:1.模糊极限学习机算法研究。研究两种基于极限学习机的模糊分类算法,分别是单模糊极限学习机(FELM)和双模糊极限学习机(BFELM),不同于ELM分类器,FELM直接将模糊隶属度加权到分类器中,对存在噪声数据的样本进行分类时,提高分类精度。进而,又提出了一种双模糊算法。BFELM因利用分布信息,泛化性能优于FELM。实验证明,在对癌症基因表达数据分类的问题上,当基因表达数据样本存在噪声的情况下,FELM和BFELM方法对比传统ELM取得更好的分类效果。2.嵌入代价的极限学习机算法研究。传统的极限学习机是以提高分类精度为学习目标,因此极限学习机在机器学习过程中不能实现代价敏感学习所需要的平均误分类代价最小的要求,本文为了减小平均误分类代价,提出了极限学习机的代价敏感学习方法(C-ELM),目的在于实现分类过程中的平均误分类代价最小化。实验证明,对于基因表达数据分类的代价敏感学习的分类问题上,C-ELM方法比ELM取得更好的分类效果。