论文部分内容阅读
近几年,肿瘤以近乎疯狂的速度侵蚀着人类的健康,与此同时基因芯片技术的不断完善推动着肿瘤基因表达谱数据呈爆炸式增长。虽然肿瘤基因表达谱数据为研究人员以新的角度探索肿瘤的奥秘提供了契机,但是这些数据普遍具有维数高、样本少、噪声高、类分布不平衡的问题,给研究工作的顺利开展带来巨大的挑战。如何有效地处理与研究此类数据已引起大量学者的兴趣。研究有效的算法选取核心的致病基因或者隐含变量进行维数约减以及研究稳定可信的聚类算法发现新的肿瘤亚型是当前肿瘤基因表达谱的两个研究重点。本文正是针对这两个方面进行研究,完成工作如下:1、本文首次将近邻成分分析法NCA应用于肿瘤基因表达谱中的分类问题。同时,针对近邻成分分析法NCA初始矩阵设置的随机性和盲目性,提出利用样本矩阵SVD分解得到的右奇异矩阵的标准化形式作为NCA算法的初始值,使得初始矩阵包含尽可能多的信息。实验结果表明,改进后的NCA算法INCA可以有效地提取分类信息,提高肿瘤分类识别率。2、针对肿瘤基因表达谱维数较高的特点,提出一种结合fisher特征选择和Pearson相关系数的特征基因选择新方法。传统fisher算法所定义的fisher指标在量化基因重要度时没有考虑不同类样本之间方差的差异,导致均值相同但方差不同的基因由于fisher指标为0而被错误地去除。本文提出的改进算法Vfisher引入新的基因重要度指标Vfisher,一定程度上弥补了这一缺陷。此外,在不影响分类准确率的情况下,利用Pearson相关系数法去除Vfisher值较小的冗余基因,可以进一步压缩数据。3、由于基因表达谱数据高维小样本的特性,使得许多常见的聚类算法用于基因谱数据都难以取得较好的聚类效果。聚类集成可在一定程度上克服单一聚类准确率低、稳定性差的不足。传统聚类集成算法侧重于对共识函数和聚类成员的研究,而忽视簇标记统一基准的选择。本文提出MSA聚类集成算法引入Silhouette指标并以Silhouette指标值最大的聚类成员作为统一的基准。在与现有的多种聚类集成算法比较时,MSA算法均具有一定的优越性。