论文部分内容阅读
随着测序技术的迅猛发展,生物序列的数量在数据库中呈指数形式增长。对于海量的生物数据,如何进行信息提取、比较分析、关系挖掘,已成为当代分子生物学和生物信息学的一个重要任务。 直接从杂乱无章的生物序列本身提取信息、发现其隐藏的规律,已经相对比较困难。生物数据的可视化研究为人们处理海量的生物数据提供了一种新的途径。如何有效利用生物序列的图形表示形式对序列进行分类及生物进化关系的分析,是生物信息学的一个重要研究课题。本文我们围绕蛋白质序列的图形表示方法、相似性分析方法、进化树构建算法进行了研究,具体的研究工作如下: (1)我们给出了一种新的蛋白质图形表示方法。首先基于氨基酸的3个理化性质对蛋白质序列构造三维离散空间点列;然后使用三次Bézier样条曲线插值蛋白质序列空间点列将其转化为空间连续参数曲线,可使蛋白质序列的3D空间表示具有更好可视性。 (2)基于空间曲线的微分几何属性(曲率),我们给出了一种新的蛋白质序列相似性比较方法。首先提取曲线的曲率特征,并利用这些曲率特征构造频率向量;然后我们计算向量之间的L1距离来对蛋白质序列进行相似性分析;最后我们以9个不同物种线粒体NADH脱氢酶(ND5)序列为例,进行了数值描述和相似性分析,并做了相关系数及显著性检验,实验结果验证了本文方法的有效性。 (3)基于蛋白质图形表示,我们给出了一种新的进化树构建算法。首先基于蛋白质图形表示得到频率向量矩阵;然后对k-means算法进行了改进,提出了一种自适应聚类算法,并对频率向量矩阵进行循环迭代来构造进化树;最后我们以15个不同物种的β球蛋白序列为例,构建了进化树并与Clustalx和DNAstar软件构建的进化树做了比较,实验结果证明了本文方法的合理性及可行性。