论文部分内容阅读
在20世纪,科学技术迅猛发展,它推动了生命科学发展的步伐。20世纪90年代人类基因工程计划(Human Genome Project, HGP)的启动和实施,大量的生物分子数据随之产生,这些生物数据蕴含着丰富的生物信息,为了能够管理好这些数据并从海量的数据中提取出有价值的信息,众多的生物学家、数学家、计算机科学家被吸引到这个新的领域并积极进行研究,计算分子生物学就是在这种挑战性的研究过程中产生的一门新兴的交叉学科,它的核心内容是生物序列分析的研究。通过近几十年的研究与发展,生物序列分析的研究方法一般分为两大类:一类是比对方法,另一类是非比对方法。鉴于比对方法的算法成本比较高,非比对方法越来越受到众多学者的关注。本文就是以k词为研究对象,提出了一些DNA序列分析的非比对模型,主要成果有:在第二章中,建立了DNA序列的一个新的几何图形表示模型。此模型是以有序的双核苷酸(2词)为研究对象,将一条DNA序列映射成一条3D曲线。运用此模型对DNA序列进行了突变分析,相似性分析和进化分析。在相似性分析和进化分析中,提出了一种简单有效的新的数值刻画量表征DNA序列,通过重构11个物种的进化树以及跟其它方法的比较,此模型蕴含着更为丰富的生物信息。此模型是对已有的几何图形表示模型的一种有效的补充。在第三章中,将伪氨基酸方法的思想推广到DNA序列分析中,构建了一个新的模型。此模型仍然是以双核苷酸为研究对象,将伪氨基酸中20个氨基酸的频率换为16个双核苷酸的频率,并从16个双核苷酸中挑选了8个重要的双核苷酸,将它们的逻辑序列的复杂度作为组成成分构建了一个24维的特征向量。用欧式距离度量得到相似性矩阵,并用PHYLIP软件重新构建两组实验数据的进化树来说明此模型的有效性。在第四章中,构建了DNA序列的一个概率模型。对DNA序列中的k词定义了一个新的概率分布,此概率分布不仅考虑了k词频率同时考虑了其位置信息。考虑到碱基突变的影响,我们对每一个k词新的概率分布减去了背景概率,用它们之间的相对差异性来表征一条DNA序列。作为应用,我们重新构建了两组实验数据的进化树,并用INDELible软件来说明我们提出方法的可靠性和稳定性。通过跟其他方法的比较,也说明了此特征向量蕴含着丰富的生物进化信息,是用于DNA序列进化分析的一种较有说服力的工具。