论文部分内容阅读
基因芯片的发明使得同时比较和研究大量基因的特性成为可能,随之产生大量的基因表达数据。在分析基因表达数据时最先采用的是聚类分析技术。所谓聚类就是按照事物的某些属性将事物聚成类,使类间的相似性尽量小,类内的相似性尽量大。如何利用计算机科学中的分析技术,以发现基因表达数据中对生物学试验有指导意义的信息或知识成为当前生物信息学研究的新课题。 我们对Dong Xu,Victor Olman等人提出的将最小生成树理论用于基因表达数据的清除MST长边聚类算法和全局最优算法进行了分析和研究,发现可以将其改进,提出了直接聚类算法、局部最优聚类算法和最大生成树模糊聚类算法。新算法主要采用了直接分类和递推计算的手段,简化中间计算过程,提高程序运行效率,进而达到缩短运行时间的目的。我们通过实验对比分析,发现新算法比原算法运行快,可以达到线性的运行时间。同时,文中也介绍了我们正在开发中的用于基因表达数据的生成树聚类软件系统MST-Cluster,该系统能够把输入的基因数据依据指定的算法进行分类,以及对己分类的两组基因进行比对。 本文主要研究了基于生成树理论用于基因的聚类算法——最小生成树聚类算法,得到了一些新算法。第一章对基因表达数据聚类的现状进行了概述;第二章介绍了与研究有关的定义和公式;第三章研究了基于最小生成树基因表达数据的聚类算法,并提出了自己的新算法,以及新算法与原算法的实验结果对比分析;第四章介绍了本人开发的用于基因表达数据的生成树聚类软件系统MST-Cluster;第五章作了总结与展望。