论文部分内容阅读
人类基因组计划的实施预示着现代生物学的发展进入到了组学的时代。当前,有近2,000个物种的基因组序列测定已经完成或者正在进行。基因组序列是一个物种进行一切生命活动的遗传与物质基础,解释和理解基因组序列的第一步是完整地注释其中参与编码蛋白质的基因。有许多证据能够对基因组注释提供支持,包括表达序列标签(Expressed Sequence Tag,EST)、同源蛋白质、基因预测软件的结果、相近物种间的保守片段等。这些不同类型的证据既能够相互补充,同时它们之间又存在冲突。人工的基因组注释主要是通过对比EST与基因组序列,产生一个可靠的注释结果。然而人工的注释耗时耗资,而且EST数据量的大小和质量严重影响到注释的完整性。计算机的基因预测能够提供了一个便宜的具有互补性的初始注释。计算机的基因预测主要是使用统计的机器学习方法,虽然在过去的20年里取得了重大的进展,但仍然有些问题亟待解决。当使用到大尺度的基因组序列时,当前的基因预测程序预测假阳性仍然偏高,而且对于缺乏训练数据的新测序物种会产生一个高度不准确的结果。本论文提供了一个基于分值的方法组合不同类型的证据,产生一个具有代表性的基因组注释结果。组合的证据包括与EST和蛋白质数据库的比对结果与4个计算机基因预测软件(Genscan,Augustus,Fgenesh,Geneid)的结果。首先,使用非参数估计统计方法转换不同证据的原始分值,使得转换后的分值能够准确地反映该证据的信任程度。我们测试了4种非参数估计方法——经验分布,分段线性函数,核密度估计,局部多项式估计,结果显示局部多项式估计是最可靠的转换方法。然后,所有的证据通过使用Dempster-Shafer证据理论结合投票的方法进行组合和归一化。最后,使用动态规划方法组合所有的证据到一个完整的真核生物基因结构。由于动态规划的方法组合基因结构不依赖于训练数据,因此此方法同样适合于预测新测序的物种。根据上述算法开发了一个真核生物基因结构预测软件,命名为SCGPred(Score-based Combinational Gene Predictorl。该软件使用Perl语言编写,为开放源代码。本论文详细地描述了上述组合算法的实现,并使用3个大的数据集评估了该软件的性能。其中,两个数据集(人的完整的第22号染色体和ENCODE序列集)用于评估该软件的监督的方法,而完整的玉米黑粉菌基因组则用于评估非监督的方法。结果显示,和其他的基因预测软件相比,我们的方法在敏感度和精确度上都有较大的提高,尤其是外显子水平。我们还证明,当应用到新测序的物种时,我们的方法同样超过了其他的非监督方法。除了编码蛋白的基因,当前研究发现有一类基因编码微RNA(microRNA)。这类微RNA通过碱基互补的方式结合到mRNA(通常是转录因子基因)上阻止该mRNA的翻译,或者启动该mRNA的降解。因此,是一种重要的后转录调控机制。使用比较拟南芥和水稻基因组并结合RNA二级结构分析,我们成功地预测了96条拟南芥微RNA,并显示这些微RNA通过结合转录因子mRNA参与到多重的代谢和遗传通路。