论文部分内容阅读
DNA、RNA和蛋白质都是由较小的单元组成的无分枝的线性聚合体大分子。对于DNA,这些单元是A(腺嘌呤)、C(胞嘧啶)、G(鸟嘌呤)和T(胸腺嘧啶)这4种核苷酸残基;对于RNA,这些单元是A、C、G和U(尿嘧啶)这4种核苷酸残基;对于蛋白质这些单元是20种氨基酸残基,即A(丙氨酸)、C(半胱氨酸)、D(天冬氨酸)、E(谷氨酸)、F(苯丙氨酸)、G(甘氨酸)、H(组氨酸)、I(异亮氨酸)、K(赖氨酸)、L(亮氨酸)、M(甲硫氨酸)、N(天冬酰氨酸)、P(脯氨酸)、Q(谷氨酰胺酸)、R(精氨酸)、S(丝氨酸)、T(苏氨酸)、V(缬氨酸)、W(色氨酸)和Y(酪氨酸)。这样,一个DNA(RNA)序列可以看作是在一个有四个字母的字母表N={A,C,G,T(U)}上的字(word),同样,蛋白质也可以看作是一个在20个字母上的字。在相当大的程度上,DNA、RNA和蛋白质分子的化学性质编码在这些基本单元的线性序列中。因此,字上的组合学和统计学的工具和方法可以在研究生物分子单元线性序列上发挥很大的作用。 本文的主要工作包括以下几个方面: 在第一章,利用代数中同态的思想和物理学中的“粗粒化”思想,根据DNA序列中四种核苷酸A、G、C和T的化学结构分类,提出DNA序列的特征序列的概念。一个DNA序列的特征序列是一组(0,1)序列,它们中的每一个都是这个DNA序列的一个简约表示,而且用它们中的任意两个都可以重新构造出这个序列;然后,利用特征序列中所有(0,1)三元组出现的总数构造了一组2×2矩阵来表示序列。进一步,我们计算这种压缩矩阵的最大特征值并把它作为DNA序列的一种不变量。基于这些DNA序列的不变量我们分析了human,goat,gallus,opossum,lemur,mouse,rabbit,rat等八个物种的球蛋白(globin)基因序列的第一个外显子序列的相似性和非相似性;另外,我们试图通过比较特征序列来找出嘌呤-嘧啶,酮基-氨基,弱氢键-强氢键分类可能显现出的生物功能。 第二章研究DNA序列的特征序列在基因识别算法中的应用。首先,我们给出DNA序列的特征序列的一种数值刻划,利用这种数值刻划给出一个基因识别算法,并将这种算法用在模式生物酿酒酵母菌基因组的分类数据库中,准确性超过95%。反过来将算法应用到酿酒酵母菌基因组中进行基因识别,得到了一个酿酒酵母菌基因组中基因总数的估计5897,与普遍接受的酿酒酵母菌基因组中基因数目5800-6000相符。 在第三章,我们将DNA序列的特征序列推广到蛋白质序列中。根据20种氨基酸的物理化学性质,给出一种蛋白质序列的特征序列的概念来表示氨基酸的疏水性质和电价性质,并给出蛋白质序列的特征序列一种数值刻划。然后,通过比较这些特征序列的数值刻划得到一些蛋白质二级结构类全α螺旋,全β折叠,和αβ类蛋白质的一些关于疏水性质和电价性质的信息。 在最后一章,我们利用代数的方法分析DNA序列和它们的三维图表示。首先,我们给出DNA序列的三维图表示(DNA曲线)的一些代数的运算,并用对称群凡作用到DNA曲线上,从而得到DNA曲线的一些性质.其次,对于DNA曲线,我们定义了两种等价关系,并得到一些与这两种等价关系相关的计数公式.在这一章的最后我们证明一个与等价类的嫡有关的不等式.