478种生物的密码对使用偏好性及其与翻译效率的相关性研究

来源 :西北农林科技大学 | 被引量 : 3次 | 上传用户:havor
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
根据中心法则,遗传信息的传递是由DNA到mRNA,再由mRNA到蛋白质。遗传信息在由mRNA到蛋白质的传递过程中是以三联体密码的形式传递的。每种氨基酸至少对应一个密码子,最多的有6种对应的密码子。编码同一种氨基酸的密码子称为同义密码子。人们已对不同物种的密码子使用偏好性进行了一些研究,发现不同物种在密码子的使用上存在着明显的偏好性;同一物种不同功能基因的密码子使用偏好性也存在较大的差异。61种有意密码子有3721(61×61)种不同的密码对组合。对于密码对用法的研究,早期主要集中在大肠杆菌等模式生物。这些研究结果表明,密码对的使用不是随机的,具有一定的偏好性。近年来,伴随着多种生物全基因组测序的完成,密码对的研究也进入了基因组水平。这些基因组水平上的研究近一步证实了密码对的使用偏好性是具有物种特异性的,并且这种偏好性不同于密码子的使用偏好性,但对于造成密码对使用偏好性的根源,还不是很清楚。已有的研究结果表明,密码对的使用与基因的翻译效率有关。有学者提出,蛋白质合成过程中,核糖体蛋白和密码子与反密码子对在核糖体的P位和A位上形成的空间结构影响了翻译的精确性和速率,而这种空间结构的稳定性是影响密码对使用偏好性的主要原因。基于密码对使用偏好性的生物信息学分析是研究基因表达、蛋白质翻译效率和基因组进化等课题中的一个重要环节。到目前为止,这方面的研究主要集中在研究单个基因或者基因组中所有基因的平均密码子使用偏好性。近年来的研究结果已经清晰的表明,核糖体对基因的翻译速度,在同一基因的不同区域是不同的。不同的密码对在基因序列上的排列顺序是否具有一定的规律?这些规律是否与基因不同区域的翻译速率有关系?这种关系是否是影响密码对使用偏好性的重要因素?这些问题是生物信息学和基因组学研究中极具挑战性的课题,但到目前为止还没有人研究。本论文利用基因组学和生物信息学的理论与技术,采用JAVA、Python和R等编程语言,针对不同的研究主题,分别编写了多个计算机程序,试图从涵盖细菌域(Bacteria)、古菌域(Archaea)和真核域(Eukarya)的478种生物的全基因组水平上分析密码对使用偏好性在基因序列的不同区域内的变化趋势,进而研究这些变化趋势与基因翻译效率的关系,以期揭示影响密码对非随机使用的进化因素,为基因表达和蛋白质翻译效率等方面的研究提供更多的理论基础。针对这一研究目标,我们开展了以下的研究:1.478种生物基因组水平上的密码对使用偏好性分析本研究的目的是在基因组水平上,分析478种生物的所有蛋白编码序列(coding sequence, CDS)中3721种密码对的组合模式,以期在不同的生物中找到普遍存在的密码对使用规律。我们从NCBI和USCS获取了人(Homo sapiens)、小鼠(Mus musculus)、大鼠(Rattus rattus)、牛(Bos Taurus)、果蝇(Drosophila melanogaster)、线虫(Caenorhabditis elegans)、酵母(Saccharomyces cerevisiae)、裂解酵母(Schizosaccharomyces pombe)、大肠杆菌(Escherichia coli)以及其它10种真菌(Fungi)、461种细菌和古细菌的CDS序列。针对该项研究,我们用JAVA和Python编程语言和R统计分析语言,编写了多个用于基因组水平上统计密码对使用频率的计算机程序并用数据库管理语言MySQL构建了相应的本地数据库。在所研究的478种生物中,我们分别计算了3721种密码对的使用偏好性分值(codon pair score,CPS)。密码对的CPS值越高说明该密码对在基因组上的偏好性越强。根据不同密码对的CPS值,我们首先分析了人、大鼠、小鼠、牛、果蝇、线虫、酵母、裂解酵母和大肠杆菌等9种模式生物中单个CDS序列的密码对使用偏好性(codon pair bias,CPB)。某一CDS序列的CPB值为该序列中所有密码对CPS值的算数平均值。研究结果表明,在所选取的这9种模式生物中,3721种密码对的使用具有强烈的偏好性。例如,人基因组上的17,635个CDS序列的CPB平均值为0.075,具有向正向偏移的趋势。根据基因组上3721种密码对的CPS值,针对基因组中的每一个CDS序列,我们按照CDS序列上密码对的排列顺序,构建了一个密码对偏好性分布型(CPS profile)。针对所研究的每一种生物,我们将该生物基因组中的所有CDS序列的密码对偏好性分布型分别从序列的5’和3’末端联配(aligning),并计算联配结果中的每一个密码对位点上CPS值的平均值,得到了该生物所有CDS序列的全基因组平均密码对偏好性分布型(averaged CPS profile)。分析基因组的平均密码对偏好性分布型表明,在所研究的478种生物中,有441种生物的全基因组CDS序列表现出相似的密码对偏好性变化规律,即在全基因组水平上,密码对的使用偏好性在CDS的5’末端普遍偏低,并由5’末端向3’末端逐步升高。我们将平均密码对偏好性分布型中出现的这一规律称为‘密码对斜坡’(codon pair ramp)。为了确定不同基因组中密码对斜坡的长度,我们使用sliding window法进一步分析了每种生物的平均密码对偏好性分布型。我们将平均密码对偏好性分布型的前120个密码对平均分为12个sliding window(每个sliding window包含10个连续的密码对)。通过Kolmogorov-Smirnov Test,我们比较了每个sliding window的平均CPS值与前120个密码对的平均CPS值,并将Kolmogorov-Smirnov Test中P值大于0.05时所对应的sliding window的位置定义为密码对斜坡的长度。通过这一算法,我们发现在所研究的479种生物中,有441种生物具有密码对斜坡,该密码对斜坡位于CDS序列的第20至第50个密码对之间(命名为:前密码对斜坡,head codon pair ramp),即CDS序列的前60至150个碱基之间。例如,在人基因组的CDS序列中,前40个密码对为前密码对斜坡区;该区域的平均CPS值为0.067,比前120个密码对的平均CPS值(0.072)低7﹪;而第50个密码对到第120个密码对的平均CPS值为0.076,比前120个密码对的平均CPS值高出6﹪。Kolmogorov-Smirnov Test的分析结果还表明,密码对斜坡在真核生物、细菌和古细菌中普遍存在,具有物种的特异性,但没有生物分类系统上的差别。为了进一步确定密码对斜坡的存在,我们分别计算了基因组中每一个CDS序列中前40个密码对的CPB值,并与每一个CDS序列的CPB值进行了比较。Paired t-test的比较结果表明,前40个密码对的CPB值,极显著的低于全序列的CPB值(Paired t-test, P<2.2E-16)。例如,在人基因组中,CDS序列的前40个密码对的平均CPB值为0.066,极显著的低于所有CDS序列的平均CPB值(0.075)(Paired t-test, P<2.2E-16)。通过分析全基因组的平均密码对偏好性分布型,我们还发现在所研究的478种生物中,密码对斜坡同时还存在于其中的413种生物例如人、大鼠、小鼠、牛、果蝇、线虫和大肠杆菌等的CDS序列的最后120个密码对中(命名为:后密码对斜坡,tail codon pair ramp);而在其余的69种生物例如酵母和裂解酵母等的CDS序列的最后120个密码对中,我们没有发现密码对斜坡的存在。除此之外,我们还发现在CDS序列的前120个密码对和后120个密码对中都发现密码对斜坡的413种生物中,有375种生物的前密码对斜坡的长度长于后密码对斜坡的长度。2.比较基因组密码对偏好性分布型和随机密码对偏好性分布型为了进一步证明我们所发现的密码对斜坡并不是随机的,而是生物基因组固有的内在特征,我们用R编程语言,结合Seqinr(http://seqinr.r-forge.r-project.org/)程序模块,编写了一个生成随机CDS序列的R计算机程序。利用codon randomization法和synonymous codon randomization法,我们对人、大肠杆菌和酵母这三种模式生物基因组上的每个CDS序列,分别生成了两组随机序列(每组包含50个随机序列)。Codon randomization法生成的随机序列保持了原有序列中61种有意密码子的使用频率不变,只是随机的改变CDS序列上密码对的排列顺序;而synonymous codon randomization法生成的随机序列不但保持了原有序列中61种有意密码子的使用频率不变,同时还保持了所编码的氨基酸序列不变,只是随机的改变序列上密码对的排列顺序。例如,对于人基因组中的17,635个CDS序列,我们用codon randomization法和synonymous codon randomization法分别生成了881,750个随机CDS序列。通过分析这两组随机序列,我们分别得到了人、大肠杆菌和酵母的两个随机密码对偏好性分布型(codon randomization profile和synonymous codon randomization profile)。在随机密码对偏好性分布型中,我们发现密码对的平均CPS值都是负值,说明在随机密码对偏好性分布型中出现的密码对在原有基因组中都是不常用的密码对;同时也说明原有基因组中的不同密码对出现的频率并不是随机的,即这些密码对的使用偏好性是具有物种特异性的,是基因组固有的特征。此外,在随机密码对偏好性分布型中,无论是对于前120个密码对还是后120个密码对,我们都没有发现密码对斜坡的存在。该结果也证明了我们在原有基因组中发现的密码对斜坡是生物固有的内在特征,而不是密码对在基因组上随机排列的结果。3.密码对斜坡与翻译效率的相关性研究已有研究表明,基因的密码对使用偏好性影响了基因的翻译效率。本研究的目的是利用生物信息学的方法,从基因组水平上研究密码对使用偏好性与基因翻译效率的相关性,尤其是密码对斜坡与翻译速率的相关性。我们用tRNA适应指数(tRNA adaptation index, tAI)作为度量基因翻译速率的指标。基因的tAI值表示的是该基因对于全基因组tRNA池的适应程度。基因的tAI值越高说明该基因的翻译速率也越高。我们用Java和Python编程语言,编写了多个用于基因组水平上计算tAI值的计算机程序。我们分别计算了9种模式生物(人、大鼠、小鼠、牛、线虫、果蝇、酵母、裂解酵母和大肠杆菌)基因组上的每一个CDS序列的tAI值。Spearman相关性分析的结果表明,在这9种模式生物中,CDS序列的CPB值与tAI值呈显著的相关。例如,在人的17,635个CDS序列中,CPB值与tAI值的Spearman相关系数为0.298(P<2.2E-16)。该结果表明,基因的翻译速率是影响基因密码对使用偏好性的一个重要因素。接着,我们从基因组水平上比较了选所取的9种模式生物的全基因组平均翻译速率分布型(averaged tAI profile)与平均密码对偏好性分布型(averaged CPB profile)。在人、牛、线虫、果蝇、裂解酵母和大肠杆菌的基因组CDS序列的前密码对斜坡区内,我们发现平均翻译速率分布型与平均密码对偏好性分布型呈现强烈的相关性,即基因组中CDS序列的前40个密码对的平均CPS值的变化趋势与平均tAI值的变化趋势强烈的相关。例如,在人基因组中,这种相关性高达0.651(Spearman test, P<9.177E-06)。但在基因组上密码对斜坡区以外的区域,我们没有发现这种相关性。例如,在人基因组的密码对斜坡以外的区域,CPS值与tAI值的Spearman相关系数为-0.032(P=0.776)。此外,在大鼠、小鼠以及酵母基因组的密码对斜坡中,我们也没有发现这种相关性(Spearman test, P>0.05),但分析酵母的CDS序列的前120个密码对(即前450个碱基)时,我们发现平均CPB值与平均tAI值呈现一定的相关性(Spearman test,ρ=0.242, P=0.0078)。以上的研究结果表明,在基因组的密码对斜坡中,密码对的偏好性与基因的翻译速率密切相关;非偏好使用的密码对降低了翻译的速度,进而影响了翻译的早期延长过程。这些结果也支持了基因表达的限速步骤是翻译的起始以及翻译的早期延长这一观点。4.密码对斜坡与大肠杆菌绿色荧光蛋白基因的表达水平的相关性研究本研究的目的是比较154个人工合成的大肠杆菌绿色荧光蛋白(green fluorescent protein, GFP)基因的密码对使用偏好性与其表达水平的关系,以期从已发表的的生物学实验结果中找到支持我们所得结论的证据。Plotkin等向我们提供了其2009年发表在《Science》上的论文中的154个人工合成的大肠杆菌GFP基因的DNA序列及其对应的基因表达水平数据。利用已有的Java和Python程序,我们分析了这154条GFP基因的CPB值。研究结果表明,这些GFP基因的平均CPB值为-0.098,低于大肠杆菌内源性基因的平均值(0.077)。由于这些人工合成的GFP基因上的密码对是随机排列的,在这些基因中我们没有发现密码对斜坡的存在。相关性分析表明,这些基因的CPB值与其对应的基因表达水平不存在相关性(Spearman test,ρ=-0.106, P>0.19)。当只考虑这154个GFP基因前40个密码对的CPB值时,我们发现前40个密码对的CPB值与基因的表达水平呈现显著的相关性(Spearman test,ρ=-0.256, P<0.01)。更有趣的是当只考虑这154个GFP基因中前40个密码对CPB值最高的37个基因(25﹪)时,我们发现CPB值与基因表达水平呈现显著的相关性(Spearman test,ρ=0.514, P<0.01)。该实验的结果支持了我们通过生物信息学分析得到的结论,即基因序列上局部的密码对使用偏好性,而不是全基因的密码对使用偏好性,与基因的表达水平密切相关。综上所述,本研究利用生物信息学和基因组学的理论和方法,分了478种生物全基因组密码对使用偏好性的变化趋势。我们在441种生物的全基因组CDS序列中发现了密码对斜坡的存在,即密码对的使用偏好性在CDS的5’末端普遍偏低,并由5’末端向3’末端逐步升高。这一规律在真核生、细菌和古细菌中普遍存在,具有物种的特异性,但没有生物分类系统上的差别。我们的研究还表明,在基因组的密码对斜坡中,密码对使用偏好性与基因的翻译速度密切相关;非偏好使用的密码对降低了翻译的速度,进而影响了翻译的早期延长过程。分析其他学者发表的生物学实验数据的结果也支持了这一结论。基于以上研究结果,我们认为翻译起始区域内的碱基序列包含了大量的信息,这些信息强烈的影响了蛋白质翻译的起始和翻译的早期延长过程。为开展本研究,我们编写了多个生物信息学程序,这些计算机程序都可免费提供下载,这为进一步开展相关研究打下了基础。本研究的结果对于理解密码对使用偏好性对基因表达的影响、基因序列的一维信息中蕴含的特定信号如何影响蛋白质功能和物种间进化等问题都具有一定的意义和指导作用,并为进一步开展此方面的研究提供了理论基础和新方法。
其他文献
2018年10月,甘肃应急管理厅组建成立,标志着一个由多个部门、多种职能重组的大综合应急机构诞生。为贯彻落实党的十九届五中全会精神,新机构深入推进应急管理科技信息化发展,通过融合物联网、大数据、云技术等,实现对城市突发事故的快速响应。救援网络平台作为应急管理信息化建设的重要一环,在疫情防控、应急通讯等方面发挥出积极作用。然而,随着应急管理体系的构建,部分问题逐步凸显,如何基于数据共享、智力支持维度
大学生责任意识培育作为高校思想政治教育的重要组成部分,是促进大学生成长成才的关键一环,对提高大学生综合素质,培养大学生立足社会具有重要意义。当前我国正是社会主义建设的新时期,实现中华民族的伟大复兴还需要全国人民的共同努力,尤其是新时代青年大学生,他们是引领社会发展的重要力量,是祖国的未来,民族的希望,对新时代大学生责任意识的培育关系到党和国家的前途和命运。然而,新时代大学生责任意识培育中还存在着诸
在我国,中药因其显著的临床疗效而被广泛应用,特别是在新型冠状病毒严重流行的时期,中药应用于临床,并治愈了许多病人。由于中医药的独特的研究价值,越来越多的世界各国和地区开始重视研究并使用中药。《中药学》是张廷模教授主编的一本普通高等教育“十一五”国家级规划教材,系统地全面地介绍了中药方面的基础理论和临床应用知识。本次实践报告选取了张廷模先生《中药学》前两个教学讲座的视频作为交替模拟口译实践对象,内容
思想政治教育工作历作为中国共产党治国理政的特色传统和重要抓手,伴随中国共产党的历史逐步发展、完善、成熟,是党治国理政不可或缺的重要工作。延安时期十三年(1935—1948),中国共产党在政治上更加辉煌、思想上更加成熟、理论上更加定型等等,这些很大程度上归功于思想政治教育的有效开展。本文以“延安时期党的思想政治教育有效性研究”为议题,研究时期定格至“延安时期”,以中国共产党的思想政治教育有效性为主题
无人驾驶汽车作为未来汽车行业发展的大趋势,不仅在国家层面上获得了政策的支持,也吸引了一大批科技公司涉足无人驾驶汽车的生产研发。无人驾驶汽车不仅能够给人们的出行带来更大的便利,还能大大降低交通事故的发生率,使人们未来的出行更加安全可靠。不过,无人驾驶汽车在无人驾驶技术尚未完全成熟的发展阶段,其作为一种智能化的交通工具,难免也会像传统汽车一样造成交通事故的发生。由于无人驾驶汽车具备高度自主性的特征,拥
笛卡尔认为,为真是命题的一种性质,真命题与实在相符合,而假命题则不然。真假与否在于我们基于观念进行的判断,而判断的对与错又在于我们对真观念的肯定或否定。但问题是,我们如何才能确定我们观念的真实性?笛卡尔对真理的描述并没有提供一种方法来辨别哪些观念能正确的表象实在。因此,在《第一哲学沉思集》中,笛卡尔针对这一难题提出:“凡是我(沉思者)清楚分明知觉到的东西都是真的”。并将这条规定做为真理的首要规则,
学位
从古希腊亚里士多德外在善中对运气的考量到现代规范伦理尤其是康德伦理学对运气的拒斥,运气在道德领域中的位置一直隐而不显。直到威廉斯通过批判规范伦理学的两大传统,重新将“运气”置入了道德领域进行考量和凸显,由此,威廉斯提出了一种探寻塑造人格同一性和个人伦理生活完整性的道德运气思想。威廉斯的道德运气思想所体现出来的批判反思式路径和对伦理生活多维度与个体完整性的整全考量主导了西方伦理理论思想近几十年的走向
现行《土地管理法》禁止宅基地使用权自由流转,然而,禁止宅基地使用权自由流转的规定致使农村宅基地面临着土地资源浪费严重的窘境。与此同时,随着农民受教育的程度的提高,实现宅基地财产价值的愿望越来越强烈。在实践中,以非法买卖、出租、置换和继承等为主要形式的宅基地流转现象越来越多,由于在流转过程中缺乏明确的法律依据,致使流转过程中发生的纠纷层出不穷,司法裁判不统一等问题显得较为突出。可见,宅基地法律制度已
法国作为现代公民教育的首创国,拥有深厚的政治文化传统。其公民教育汲取了《人权宣言》中的人权思想、启蒙运动中的自由平等思想以及法国大革命中的公民教育实践成果,以卢梭、孟德斯鸠、孔多塞等人的公民思想为理论基础。法国作为资本主义世界公民教育的典范,形成了成熟的公民教育体系,积累了丰富的经验。因此,我们有必要对法国公民教育的内容体系、实践方法进行探索研究,借鉴其成功经验,为我国思想政治教育的发展提供更好的