论文部分内容阅读
根据中心法则,遗传信息的传递是由DNA到mRNA,再由mRNA到蛋白质。遗传信息在由mRNA到蛋白质的传递过程中是以三联体密码的形式传递的。每种氨基酸至少对应一个密码子,最多的有6种对应的密码子。编码同一种氨基酸的密码子称为同义密码子。人们已对不同物种的密码子使用偏好性进行了一些研究,发现不同物种在密码子的使用上存在着明显的偏好性;同一物种不同功能基因的密码子使用偏好性也存在较大的差异。61种有意密码子有3721(61×61)种不同的密码对组合。对于密码对用法的研究,早期主要集中在大肠杆菌等模式生物。这些研究结果表明,密码对的使用不是随机的,具有一定的偏好性。近年来,伴随着多种生物全基因组测序的完成,密码对的研究也进入了基因组水平。这些基因组水平上的研究近一步证实了密码对的使用偏好性是具有物种特异性的,并且这种偏好性不同于密码子的使用偏好性,但对于造成密码对使用偏好性的根源,还不是很清楚。已有的研究结果表明,密码对的使用与基因的翻译效率有关。有学者提出,蛋白质合成过程中,核糖体蛋白和密码子与反密码子对在核糖体的P位和A位上形成的空间结构影响了翻译的精确性和速率,而这种空间结构的稳定性是影响密码对使用偏好性的主要原因。基于密码对使用偏好性的生物信息学分析是研究基因表达、蛋白质翻译效率和基因组进化等课题中的一个重要环节。到目前为止,这方面的研究主要集中在研究单个基因或者基因组中所有基因的平均密码子使用偏好性。近年来的研究结果已经清晰的表明,核糖体对基因的翻译速度,在同一基因的不同区域是不同的。不同的密码对在基因序列上的排列顺序是否具有一定的规律?这些规律是否与基因不同区域的翻译速率有关系?这种关系是否是影响密码对使用偏好性的重要因素?这些问题是生物信息学和基因组学研究中极具挑战性的课题,但到目前为止还没有人研究。本论文利用基因组学和生物信息学的理论与技术,采用JAVA、Python和R等编程语言,针对不同的研究主题,分别编写了多个计算机程序,试图从涵盖细菌域(Bacteria)、古菌域(Archaea)和真核域(Eukarya)的478种生物的全基因组水平上分析密码对使用偏好性在基因序列的不同区域内的变化趋势,进而研究这些变化趋势与基因翻译效率的关系,以期揭示影响密码对非随机使用的进化因素,为基因表达和蛋白质翻译效率等方面的研究提供更多的理论基础。针对这一研究目标,我们开展了以下的研究:1.478种生物基因组水平上的密码对使用偏好性分析本研究的目的是在基因组水平上,分析478种生物的所有蛋白编码序列(coding sequence, CDS)中3721种密码对的组合模式,以期在不同的生物中找到普遍存在的密码对使用规律。我们从NCBI和USCS获取了人(Homo sapiens)、小鼠(Mus musculus)、大鼠(Rattus rattus)、牛(Bos Taurus)、果蝇(Drosophila melanogaster)、线虫(Caenorhabditis elegans)、酵母(Saccharomyces cerevisiae)、裂解酵母(Schizosaccharomyces pombe)、大肠杆菌(Escherichia coli)以及其它10种真菌(Fungi)、461种细菌和古细菌的CDS序列。针对该项研究,我们用JAVA和Python编程语言和R统计分析语言,编写了多个用于基因组水平上统计密码对使用频率的计算机程序并用数据库管理语言MySQL构建了相应的本地数据库。在所研究的478种生物中,我们分别计算了3721种密码对的使用偏好性分值(codon pair score,CPS)。密码对的CPS值越高说明该密码对在基因组上的偏好性越强。根据不同密码对的CPS值,我们首先分析了人、大鼠、小鼠、牛、果蝇、线虫、酵母、裂解酵母和大肠杆菌等9种模式生物中单个CDS序列的密码对使用偏好性(codon pair bias,CPB)。某一CDS序列的CPB值为该序列中所有密码对CPS值的算数平均值。研究结果表明,在所选取的这9种模式生物中,3721种密码对的使用具有强烈的偏好性。例如,人基因组上的17,635个CDS序列的CPB平均值为0.075,具有向正向偏移的趋势。根据基因组上3721种密码对的CPS值,针对基因组中的每一个CDS序列,我们按照CDS序列上密码对的排列顺序,构建了一个密码对偏好性分布型(CPS profile)。针对所研究的每一种生物,我们将该生物基因组中的所有CDS序列的密码对偏好性分布型分别从序列的5’和3’末端联配(aligning),并计算联配结果中的每一个密码对位点上CPS值的平均值,得到了该生物所有CDS序列的全基因组平均密码对偏好性分布型(averaged CPS profile)。分析基因组的平均密码对偏好性分布型表明,在所研究的478种生物中,有441种生物的全基因组CDS序列表现出相似的密码对偏好性变化规律,即在全基因组水平上,密码对的使用偏好性在CDS的5’末端普遍偏低,并由5’末端向3’末端逐步升高。我们将平均密码对偏好性分布型中出现的这一规律称为‘密码对斜坡’(codon pair ramp)。为了确定不同基因组中密码对斜坡的长度,我们使用sliding window法进一步分析了每种生物的平均密码对偏好性分布型。我们将平均密码对偏好性分布型的前120个密码对平均分为12个sliding window(每个sliding window包含10个连续的密码对)。通过Kolmogorov-Smirnov Test,我们比较了每个sliding window的平均CPS值与前120个密码对的平均CPS值,并将Kolmogorov-Smirnov Test中P值大于0.05时所对应的sliding window的位置定义为密码对斜坡的长度。通过这一算法,我们发现在所研究的479种生物中,有441种生物具有密码对斜坡,该密码对斜坡位于CDS序列的第20至第50个密码对之间(命名为:前密码对斜坡,head codon pair ramp),即CDS序列的前60至150个碱基之间。例如,在人基因组的CDS序列中,前40个密码对为前密码对斜坡区;该区域的平均CPS值为0.067,比前120个密码对的平均CPS值(0.072)低7﹪;而第50个密码对到第120个密码对的平均CPS值为0.076,比前120个密码对的平均CPS值高出6﹪。Kolmogorov-Smirnov Test的分析结果还表明,密码对斜坡在真核生物、细菌和古细菌中普遍存在,具有物种的特异性,但没有生物分类系统上的差别。为了进一步确定密码对斜坡的存在,我们分别计算了基因组中每一个CDS序列中前40个密码对的CPB值,并与每一个CDS序列的CPB值进行了比较。Paired t-test的比较结果表明,前40个密码对的CPB值,极显著的低于全序列的CPB值(Paired t-test, P<2.2E-16)。例如,在人基因组中,CDS序列的前40个密码对的平均CPB值为0.066,极显著的低于所有CDS序列的平均CPB值(0.075)(Paired t-test, P<2.2E-16)。通过分析全基因组的平均密码对偏好性分布型,我们还发现在所研究的478种生物中,密码对斜坡同时还存在于其中的413种生物例如人、大鼠、小鼠、牛、果蝇、线虫和大肠杆菌等的CDS序列的最后120个密码对中(命名为:后密码对斜坡,tail codon pair ramp);而在其余的69种生物例如酵母和裂解酵母等的CDS序列的最后120个密码对中,我们没有发现密码对斜坡的存在。除此之外,我们还发现在CDS序列的前120个密码对和后120个密码对中都发现密码对斜坡的413种生物中,有375种生物的前密码对斜坡的长度长于后密码对斜坡的长度。2.比较基因组密码对偏好性分布型和随机密码对偏好性分布型为了进一步证明我们所发现的密码对斜坡并不是随机的,而是生物基因组固有的内在特征,我们用R编程语言,结合Seqinr(http://seqinr.r-forge.r-project.org/)程序模块,编写了一个生成随机CDS序列的R计算机程序。利用codon randomization法和synonymous codon randomization法,我们对人、大肠杆菌和酵母这三种模式生物基因组上的每个CDS序列,分别生成了两组随机序列(每组包含50个随机序列)。Codon randomization法生成的随机序列保持了原有序列中61种有意密码子的使用频率不变,只是随机的改变CDS序列上密码对的排列顺序;而synonymous codon randomization法生成的随机序列不但保持了原有序列中61种有意密码子的使用频率不变,同时还保持了所编码的氨基酸序列不变,只是随机的改变序列上密码对的排列顺序。例如,对于人基因组中的17,635个CDS序列,我们用codon randomization法和synonymous codon randomization法分别生成了881,750个随机CDS序列。通过分析这两组随机序列,我们分别得到了人、大肠杆菌和酵母的两个随机密码对偏好性分布型(codon randomization profile和synonymous codon randomization profile)。在随机密码对偏好性分布型中,我们发现密码对的平均CPS值都是负值,说明在随机密码对偏好性分布型中出现的密码对在原有基因组中都是不常用的密码对;同时也说明原有基因组中的不同密码对出现的频率并不是随机的,即这些密码对的使用偏好性是具有物种特异性的,是基因组固有的特征。此外,在随机密码对偏好性分布型中,无论是对于前120个密码对还是后120个密码对,我们都没有发现密码对斜坡的存在。该结果也证明了我们在原有基因组中发现的密码对斜坡是生物固有的内在特征,而不是密码对在基因组上随机排列的结果。3.密码对斜坡与翻译效率的相关性研究已有研究表明,基因的密码对使用偏好性影响了基因的翻译效率。本研究的目的是利用生物信息学的方法,从基因组水平上研究密码对使用偏好性与基因翻译效率的相关性,尤其是密码对斜坡与翻译速率的相关性。我们用tRNA适应指数(tRNA adaptation index, tAI)作为度量基因翻译速率的指标。基因的tAI值表示的是该基因对于全基因组tRNA池的适应程度。基因的tAI值越高说明该基因的翻译速率也越高。我们用Java和Python编程语言,编写了多个用于基因组水平上计算tAI值的计算机程序。我们分别计算了9种模式生物(人、大鼠、小鼠、牛、线虫、果蝇、酵母、裂解酵母和大肠杆菌)基因组上的每一个CDS序列的tAI值。Spearman相关性分析的结果表明,在这9种模式生物中,CDS序列的CPB值与tAI值呈显著的相关。例如,在人的17,635个CDS序列中,CPB值与tAI值的Spearman相关系数为0.298(P<2.2E-16)。该结果表明,基因的翻译速率是影响基因密码对使用偏好性的一个重要因素。接着,我们从基因组水平上比较了选所取的9种模式生物的全基因组平均翻译速率分布型(averaged tAI profile)与平均密码对偏好性分布型(averaged CPB profile)。在人、牛、线虫、果蝇、裂解酵母和大肠杆菌的基因组CDS序列的前密码对斜坡区内,我们发现平均翻译速率分布型与平均密码对偏好性分布型呈现强烈的相关性,即基因组中CDS序列的前40个密码对的平均CPS值的变化趋势与平均tAI值的变化趋势强烈的相关。例如,在人基因组中,这种相关性高达0.651(Spearman test, P<9.177E-06)。但在基因组上密码对斜坡区以外的区域,我们没有发现这种相关性。例如,在人基因组的密码对斜坡以外的区域,CPS值与tAI值的Spearman相关系数为-0.032(P=0.776)。此外,在大鼠、小鼠以及酵母基因组的密码对斜坡中,我们也没有发现这种相关性(Spearman test, P>0.05),但分析酵母的CDS序列的前120个密码对(即前450个碱基)时,我们发现平均CPB值与平均tAI值呈现一定的相关性(Spearman test,ρ=0.242, P=0.0078)。以上的研究结果表明,在基因组的密码对斜坡中,密码对的偏好性与基因的翻译速率密切相关;非偏好使用的密码对降低了翻译的速度,进而影响了翻译的早期延长过程。这些结果也支持了基因表达的限速步骤是翻译的起始以及翻译的早期延长这一观点。4.密码对斜坡与大肠杆菌绿色荧光蛋白基因的表达水平的相关性研究本研究的目的是比较154个人工合成的大肠杆菌绿色荧光蛋白(green fluorescent protein, GFP)基因的密码对使用偏好性与其表达水平的关系,以期从已发表的的生物学实验结果中找到支持我们所得结论的证据。Plotkin等向我们提供了其2009年发表在《Science》上的论文中的154个人工合成的大肠杆菌GFP基因的DNA序列及其对应的基因表达水平数据。利用已有的Java和Python程序,我们分析了这154条GFP基因的CPB值。研究结果表明,这些GFP基因的平均CPB值为-0.098,低于大肠杆菌内源性基因的平均值(0.077)。由于这些人工合成的GFP基因上的密码对是随机排列的,在这些基因中我们没有发现密码对斜坡的存在。相关性分析表明,这些基因的CPB值与其对应的基因表达水平不存在相关性(Spearman test,ρ=-0.106, P>0.19)。当只考虑这154个GFP基因前40个密码对的CPB值时,我们发现前40个密码对的CPB值与基因的表达水平呈现显著的相关性(Spearman test,ρ=-0.256, P<0.01)。更有趣的是当只考虑这154个GFP基因中前40个密码对CPB值最高的37个基因(25﹪)时,我们发现CPB值与基因表达水平呈现显著的相关性(Spearman test,ρ=0.514, P<0.01)。该实验的结果支持了我们通过生物信息学分析得到的结论,即基因序列上局部的密码对使用偏好性,而不是全基因的密码对使用偏好性,与基因的表达水平密切相关。综上所述,本研究利用生物信息学和基因组学的理论和方法,分了478种生物全基因组密码对使用偏好性的变化趋势。我们在441种生物的全基因组CDS序列中发现了密码对斜坡的存在,即密码对的使用偏好性在CDS的5’末端普遍偏低,并由5’末端向3’末端逐步升高。这一规律在真核生、细菌和古细菌中普遍存在,具有物种的特异性,但没有生物分类系统上的差别。我们的研究还表明,在基因组的密码对斜坡中,密码对使用偏好性与基因的翻译速度密切相关;非偏好使用的密码对降低了翻译的速度,进而影响了翻译的早期延长过程。分析其他学者发表的生物学实验数据的结果也支持了这一结论。基于以上研究结果,我们认为翻译起始区域内的碱基序列包含了大量的信息,这些信息强烈的影响了蛋白质翻译的起始和翻译的早期延长过程。为开展本研究,我们编写了多个生物信息学程序,这些计算机程序都可免费提供下载,这为进一步开展相关研究打下了基础。本研究的结果对于理解密码对使用偏好性对基因表达的影响、基因序列的一维信息中蕴含的特定信号如何影响蛋白质功能和物种间进化等问题都具有一定的意义和指导作用,并为进一步开展此方面的研究提供了理论基础和新方法。