论文部分内容阅读
随着DNA测序技术的进步,迄今为止已有接近三百多种原核生物完成测序。基因识别是进行基因组分析的第一步,在生物信息学研究中占有重要的地位。本论文主要研究内容是原核生物的蛋白质编码基因识别算法和基因组分析。论文第一部分首先介绍了生物信息学的发展背景及主要研究内容、主要的蛋白质基因识别算法以及DNA序列的Z曲线理论及其应用。Z曲线理论是我们分析原核生物基因组的主要工具,论文第二部分是围绕细菌和古细菌基因识别问题展开的。论文第二部分主要围绕原核生物基因识别问题展开的。首先分析了Aeropyrum pernix K1基因组中原始注释为可能基因的2694 ORFs的碱基构成。结果发现他们按照三个密码子位的核酸构成共被分为三类(A,B,C)。依据聚类算法本文提出了一个编码指标AZ。结果,Aeropyrum pernix基因组中蛋白质编码基因的数目被重新确定为1610个。这个数目显著低于原始注释的2694,也明显低于NCBI工作人员手工检查过的RefSeq重新注释的1841。接下来提出了一种新的识别细菌和古细菌基因组蛋白质编码基因的ab initio算法和相应的计算机软件ZCURVE 1.0。选用18 个没有用Glimmer 注释的细菌或古细菌基因组将ZCURVE 1.0 和Glimmer 2.02 进行全面比较。结果表明,两种算法的平均识别率相当;但是,ZCURVE 1.0 具有更低的附加预测率,更高的基因起始和水平转移基因识别率。尤其对高G+C 含量基因组,ZCURVE 1.0表现出明显的优势。将两种算法联合使用,预测成绩显著提高。接下来,又提出了一种新的病毒和噬菌体蛋白质编码基因的ab initio算法和相应的计算机软件ZCURVE_V 1.0。该算法和ZCURVE 1.0一样是以相位特异性的Z曲线理论为基础,使用33个参数来描述编码序列。但是在ZCURVE 1.0中使用的判别方法是Fisher判别,而在ZCURVE_V 1.0中使用的是欧氏距离判别,另外在ZCURVE_V 1.0的算法中没有使用负样本。通过对比发现对于长度低于100 kb的病毒和噬菌体基因组ZCURVE_V的预测成绩要优于GeneMark。此外,提出了一种基于自训练的细菌基因起始的预测算法GS-Finder。 论文的第三部分是原核生物基因组序列分析。利用Z曲线方法研究复制链的不对称性。使用Z曲线方法发现Chlamydia muridarum基因组具有分离的碱基使用。根据由变量u1 ? u9张成的9维空间的位置,K-means聚类方法能够把所有基因中的94%聚到正确的复制链。碱基使用和密码子使用表明前导链的基因具有的碱基G比C更多,碱基T比A更多,尤其在第三密码子位。滞后链的基因情况则相反。染色体序列Z曲线的y分量表明上面的四个基因组G/C和T/A链偏异比其他基因组强烈得多。不同寻常的G/C和T/A链偏异导致了这四个基因组分离的密码子使用和碱基使用。从系统发育的观点来开,这四个基因组属于两个不同的门,这两个门被聚到了一起。接下来我们考察高GC含量基因组编码序列和非编码ORFs 的分布情况。我们发现了一个有趣的七类现象:对于高G+C 含量基因组,ORFs 在9 维空间中聚成7 类,呈花状结构,6个花瓣状区域围绕着1 个中心区域。中心区域对应基因间序列。在6 个花瓣状区域中,其中1 个区域对应编码序列,其它5 个区域分别对应5 个非编码阅读框上的非编码ORFs。但是,在中等或低G+C 含量的细菌基因组中,没有观察到类似现象。