基因表达数据聚类分析算法研究和应用

被引量 : 0次 | 上传用户:qwer_xxx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着基因芯片技术的广泛应用,产生了海量的基因表达数据。如何分析和处理这些数据,从中提取有用的生物学或医学信息,是基因芯片技术应用的关键和难点,其研究已成为后基因组时代的热点之一。聚类分析能将功能相关的基因按表达谱的相似程度归纳成共同表达类别,有助于对基因功能、基因调控、细胞过程及细胞亚型等进行综合研究,是目前基因表达数据分析的主要技术之一。本文针对基因表达数据聚类分析中聚类算法和参数的选择、聚类结果的有效性评价和类数估计等具体问题,主要工作和创新点如下:1.首次采用具有外部标准的基因表达数据集,研究了基因聚类分析中层次聚类、K-means聚类和SOMs等最为常用的算法对相似度和数据转换方式的选择,比较了各类算法的性能。结果表明:层次聚类宜以Pearson相关系数为相似度,并对数据进行行标准化转换;K-means聚类和SOMs则宜选择Euclidean距离准则和标准化对数转换的数据。并且,应尽量避免使用单连接层次聚类, K-means聚类与SOMs算法的性能显著优于层次聚类。2.研究了Silhouette指数、Dunn’s指数、Davies-Bouldin指数及FOM测量对基因聚类分析结果的确认能力。结果表明:Silhouette指数和FOM测量能较好地反映聚类算法的性能和聚类结果的质量,Dunn’s指数因其对噪声的高度敏感性不能直接用于基因聚类结果的确认,Davies-Bouldin指数的确认能力好于Dunn’s指数,但偏爱单连接聚类。3.对Silhouette指数、Davies-Bouldin指数、FOM测量等函数的类数估计能力进行了研究。结果表明:Silhouette指数和Davies-Bouldin指数估计确切类数的正确率都比较低,难于实际应用;FOM测量的拐点位置只能粗略估计大致的类数,并含有不确定性和主观性。定义了新的相对Silhouette指数和相对Davies-Bouldin指数,以扩展现有Silhouette指数和Davies-Bouldin指数估计类数的能力。引入了类数估计专用函数-预测强度进行基因聚类分析中类数的估计,提高了类数估计的可靠性。4.针对高分辨率SOMs投影结果难于确定类边界的问题,采用K-means对SOMs训练后的网络单元聚类,实现了SOMs算法与K-means聚类的有机结合。采用SOMs与K-means相结合的聚类方法对酵母二次迁移全基因组表达数据进行了系统分析,得到了表达谱十分相似的基因类,为未知基因的功能预测提供了重要线索。
其他文献
自上个世纪八十年代以来,我国高速公路建设发展迅速,目前已经初步完成高速公路网的建设,随之而来的是大量的养护工作。在国外,路面管理系统已经被证明是一个统筹养护资金分配
20世纪80年代以来,各发达国家都非常关注以基础教育课程改革为核心的教育改革,国际理科教育改革的总目标是培养学生的科学素养,倡导学生主动参与、乐于探究,勤于动手;培养学生搜集
当人类满怀豪情地迈入新的百年和新的千年之际,回眸20世纪,回顾百年物理学发展给人类带来的恩惠和启示,展望新世纪的挑战和机遇,不免要深思物理教育工作者所承担的历史责任。高中
为了对北京经济系统物质利用效率和污染物质对环境的影响进行分析,论文在物质流分析方法的基础上,根据投入产出表的原理,探索性地编制了2004年北京物质流投入产出表,并对基本
本文以杭州市水路集装箱运输为研究对象,旨在向杭州市的政府部门推荐最优的水路集装箱运输发展方案并提出促进水路集装箱运输发展的政策建议,同时为其它地区的政府部门、专家学
每年脱粒季节总是事故发生频繁.除脱粒机本身制造质量差外,还与操作者使用不当有关.为保证在脱粒季节做到安全生产,望广大机手在脱粒时切实注意以下几点:
当代欧美文化在世界各地的影响越来越大,其它国家的民族文化形成了巨大的挑战。本文从不同文化对世界的影响力为切入点,对欧美文化与亚非文化的相互关系做了简要分析,认为亚
根据目前机械臂的发展状况,针对融合视觉的机械臂机械抓取策略做简要综述,基于视觉的机械臂抓取策略主要分为三个发展历程:基于单双目结合视觉、基于Kinect二维深度视觉,基于
本文主要研究级联耦合和交叉耦合谐振腔体滤波器的计算机辅助诊断和调试的方法。首先,分析了利用广义切比雪夫滤波函数综合耦合矩阵的方法,并且给出了腔体滤波器设计的方法。
反向收购(借壳上市)如今被许多试图尽快上市的企业所使用。选择不同的会计处理方法对通过反向收购而上市的企业会产生不同的会计后果。本文选取一则反向收购案例,对我国《企业