论文部分内容阅读
随着基因芯片技术的广泛应用,产生了海量的基因表达数据。如何分析和处理这些数据,从中提取有用的生物学或医学信息,是基因芯片技术应用的关键和难点,其研究已成为后基因组时代的热点之一。聚类分析能将功能相关的基因按表达谱的相似程度归纳成共同表达类别,有助于对基因功能、基因调控、细胞过程及细胞亚型等进行综合研究,是目前基因表达数据分析的主要技术之一。本文针对基因表达数据聚类分析中聚类算法和参数的选择、聚类结果的有效性评价和类数估计等具体问题,主要工作和创新点如下:1.首次采用具有外部标准的基因表达数据集,研究了基因聚类分析中层次聚类、K-means聚类和SOMs等最为常用的算法对相似度和数据转换方式的选择,比较了各类算法的性能。结果表明:层次聚类宜以Pearson相关系数为相似度,并对数据进行行标准化转换;K-means聚类和SOMs则宜选择Euclidean距离准则和标准化对数转换的数据。并且,应尽量避免使用单连接层次聚类, K-means聚类与SOMs算法的性能显著优于层次聚类。2.研究了Silhouette指数、Dunn’s指数、Davies-Bouldin指数及FOM测量对基因聚类分析结果的确认能力。结果表明:Silhouette指数和FOM测量能较好地反映聚类算法的性能和聚类结果的质量,Dunn’s指数因其对噪声的高度敏感性不能直接用于基因聚类结果的确认,Davies-Bouldin指数的确认能力好于Dunn’s指数,但偏爱单连接聚类。3.对Silhouette指数、Davies-Bouldin指数、FOM测量等函数的类数估计能力进行了研究。结果表明:Silhouette指数和Davies-Bouldin指数估计确切类数的正确率都比较低,难于实际应用;FOM测量的拐点位置只能粗略估计大致的类数,并含有不确定性和主观性。定义了新的相对Silhouette指数和相对Davies-Bouldin指数,以扩展现有Silhouette指数和Davies-Bouldin指数估计类数的能力。引入了类数估计专用函数-预测强度进行基因聚类分析中类数的估计,提高了类数估计的可靠性。4.针对高分辨率SOMs投影结果难于确定类边界的问题,采用K-means对SOMs训练后的网络单元聚类,实现了SOMs算法与K-means聚类的有机结合。采用SOMs与K-means相结合的聚类方法对酵母二次迁移全基因组表达数据进行了系统分析,得到了表达谱十分相似的基因类,为未知基因的功能预测提供了重要线索。