论文部分内容阅读
生物芯片是近10年以来生命科学领域中迅速发展起来的一项高新技术,其主要特点是高通量、微型化和自动化。基因表达谱芯片可以同时检测成千上万个基因的表达,现已被广泛应用于基因组水平上的基因表达分析。由于基因芯片数据的海量性和复杂性,传统的数据分析方法已经不能很好的满足其需要。伴随着基因芯片技术的发展和成熟,各种改进的数学模型和分析方法也在不断涌现。其中,无监督学习(聚类分析)如系统聚类、k-means聚类、自组织聚类等,在基因表达谱芯片分析中的应用也越来越广泛。
现有的基于定量表达数据的聚类方法虽然能在一定程度上揭示基因表达谱芯片的表达模式,但它们也存在各自的和共同的缺陷。为弥补现有聚类方法的不足,本文提出了一种基于定性编码的三重聚类算法,在基因变化表达型定性编码的基础上,先对芯片数据进行基于定性编码的核聚类,然后再对第一次聚类的结果分别进行类间的系统聚类和类内部基因的系统聚类。我们用酵母基因组的基因表达芯片数据进行了测试,对聚类的结果我们还设计了基于信息熵理论的logus图和HHF图来展示。结果表明,我们聚类的结果有显著的生物学相关性,能够很好的阐述类之间的关系,能通过自适应的方式有效地排除无关条件的噪音,而且能够在某些情况下对基因表达的时序性进行处理,这些改进能够对现有应用于基因表达芯片分析的聚类算法做出有益的补充。
同时,为了便于实验工作者更有效和方便地利用现有生物信息资源来指导实验和分析数据,特别是高通量的基因芯片数据,我们开发了一个基于WEB和数据库技术的基因生物信息查询与分析平台。通过这个平台我们可以查询以基因为中心的基因注释信息,基因功能信息,基因代谢和表达调控通路(pathway)信息以及基因的组织特异性表达信息。此外,我们提出了基于二项分布的基因集富集分析方法,该方法可以对任意有意义的基因集进行分析,并能够揭示基因之间及基因与各种生物信息之间(功能,pathway和组织)的联系。
我们将该平台用于PGC-1相关的基因表达芯片数据,一方面,我们的分析结果与现有知识有高度的一致性,这证明了我们的平台在生物信息挖掘上的有效性,另一方面,我们的分析结果中还存在迄今为止尚未有报道的基因之间及基因与生物信息之间的联系,这表明我们的信息平台可以用于揭示新的生物信息相关性,并为实验设计提供有益的指导。