论文部分内容阅读
随着后基因组时代的到来,生物信息学的主要任务已经从生物数据的积累发展到对生物数据的整合与处理阶段。由于生物信息学分析资源多样、生物数据海量、分析任务复杂,构建针对不同需求的生物信息分析系统显得非常重要。本研究根据禽类重要传染病病原——新城疫病毒(Newcastle disease virus, NDV)基因组分析的需求,开发针对NDV的生物信息分析系统,并利用生物信息学分析方法,开展NDV全基因组的比较研究,在全基因组水平上阐明NDV遗传进化规律,为防控新城疫(Newcastle disease, ND)的流行提供理论依据。1.基于Z曲线理论的核酸序列可视化分析系统的构建。Z曲线是我国科学家发展起来的一种用几何学方法分析比较基因组核酸序列的有效工具,它将基因组字母序列记录的信息转换成三维坐标的空间曲线,使研究者可以直观地对研究对象进行分析比较。本研究根据Z曲线理论,在对系统需求进行分析的基础上,采用计算机图形学中的包围盒抽稀算法思想,使用Visual C++编程,开发了具有DNA序列的座标转换、Z曲线显示和比较、基本输入输出等功能的病毒基因组生物信息分析系统。通过以不同基因型NDV基因组核酸序列的显示为例,证明该系统能够被用于对病毒基因组序列进行显示和比较。2.基于Web的新城疫病毒基因分型系统的构建。人们根据新城疫病毒的分子生物学特性,建立了基于新城疫病毒F基因限制性酶切位点和F蛋白特定氨基酸位点的基因分型方法,由于分型过程中序列处理过程复杂、结果判定容易产生偏差,本研究根据NDV基因型分析的规律,以浏览器为用户界面,采用JSP技术,后台数据库采用SQL Server,以开源软件eclipse 3.2为开发平台,构建了基于Web的新城疫病毒基因自动分型系统,通过实例检验,系统实现了快速准确地判别NDV毒株基因型的功能。3.基于Web的新城疫病毒生物信息分析系统的构建。针对新城疫病毒基因组生物信息分析的需要,以IBM服务器作为硬件平台,以Microsoft Windows Service 2003作为操作系统、Microsoft SQL Service 2005为数据库开发环境,采用VB+COM组件编程开发了后台NDV生物信息数据自动获取管理系统,采用ASP、JSP+COM组件编程开发了前台基于WEB的生物信息分析系统。设计与实现过程包括系统多层结构模型的设计、后台数据更新系统的设计与实现、前台数据分析系统的设计与实现。系统实现了对NDV核酸和蛋白序列数据的提交和检索、核酸序列的分析、蛋白质序列的分析以及蛋白质结构的预测等功能。4.新城疫病毒分离株全基因组序列测定与分子生物学特性鉴定。根据GenBank发布的NDV全基因组序列,设计了10对引物,对由本室分离鉴定的3个鸭源弱毒株和国内相关研究单位提供的4个鸽源、2个鸡源毒株进行了全基因组序列测定,结果表明,3个鸭源毒株全基因组序列长度为15186nt,基因组AT含量为53%,GC含量为47%,4个鸽源和2个鸡源株全基因组的长度为15192nt,基因组AT含量为54%,GC含量为46%。所测毒株各基因的起始位置与均已经发表的毒株相一致。各毒株F蛋白裂解位点区域的序列符合其毒力强弱的特征,除鸭源毒株的HN蛋白长度为616和577个氨基酸外,其它均为571个氨基酸。与GenBank进行的同源比对以及与各基因型代表株的序列比对结果表明,所测毒株与已经公布的毒株之间同源性最高的为95%左右,最低的为84%左右。基于F基因片段构建的系统进化树显示,3个鸭源毒株全部属于基因Ⅰ型,2个鸽源株(ND/05/028、ND/05/029)属于基因Ⅵ型,另2个鸽源株(ND/03/018、ND/03/044)属于基因Ⅶ型,鸡源株QH1和QH4属于基因Ⅷ型。经与GenBank检索结果比较,本文首次测定了NDV基因Ⅷ型毒株的全基因序列,为开展不同基因型NDV全基因组的比较研究提供了条件。5.鹅源新城疫病毒基因组密码子使用分析。鹅的新城疫流行是最近10多年才出现的新情况。为了进一步研究鹅源NDV的分子生物学特性,本文以我国测序的两株鹅源NDV全基因组序列(ZJl、SF02)为材料,分析其密码子用法,并与鹅、鸡的密码子用法进行比较,在密码子使用水平上作初步探索。结果表明,虽然鹅源NDV毒株与疫苗株、鸡源株、鸽源株在基因组水平上存在较大差异,但在编码蛋白的密码子用法上没有显著差异,在密码子的优先使用和高频密码子数、有效密码子数、密码子使用指数等指标上基本一致。从与宿主密码子使用频率的比较上可以看出,鹅源NDV密码子使用频率与鹅、鸡的密码子使用频率差异不大,仅有5-6个密码子存在差异。6.基于Z曲线的新城疫病毒基因组生物信息学比较。利用从GenBank下载以及本室测序的NDV全基因组序列和本研究开发的Z曲线分析系统,分别绘制了NDV全基因组的X-n、Y-n、Z-n和三维Z曲线,比较了不同基因型NDV基因组Z曲线的特征,结果显示,NDV全基因组中嘌呤碱基(A、G)、氨基碱基(A、C)占优势,在基因组序列的前1/3至前1/2区域,强氢键碱基(G、C)占优势。不同基因型的NDV基因组Z曲线,从Class Ⅰ到Class Ⅱ的基因1—8型,有向Z轴靠拢的趋势,在基因组组成中表现为GC含量有降低的趋势,这一进化规律的生物学意义值得进一步研究。通过对副粘病毒亚科不同属病毒代表株全基因组序列Z曲线的比较,证明近年来将NDV与APMV2-9型划为新的Avulavirus属是正确的,从全基因组Z曲线上可以看出,它们与原副粘病毒属的病毒有较大的区别。7.不同基因型新城疫病毒全基因组的比较研究。选择53个NDV全基因组序列,包括Class Ⅰ和Class Ⅱ中基因Ⅰ-Ⅸ型毒株,利用生物信息学分析方法在核酸水平和蛋白质水平开展比较研究,结果表明:NDV毒株中基因组长度有3种类型,即15186nt、15192nt、15198nt;基因组核酸序列中的碱基组成存在少许差异,且与病毒的基因型相关;3’端非编码区RNA二级结构存在3种类型,其中有2个保守的茎-环结构,可能是与病毒复制与转录相关的重要功能区;基因组编码区序列和编码蛋白序列的遗传进化分析表明,NDV各基因的进化基本保持同步,核酸序列的同源性小于蛋白序列的同源性;经对F和HN蛋白功能位点预测和比较,发现不同基因型毒株存在一些特定的氨基酸位点;利用Insight Ⅱ软件模拟了鸡源、鸽源和鹅源毒株的F、HN蛋白三级结构,对鹅源株三维结构中特征性位点及与周围结构的关系进行了分析。8.结论(1)根据Z曲线理论,构建了基于Z曲线的基因组核酸序列可视化分析系统,提供了直观地分析比较和研究基因组核酸序列的几何学工具。(2)根据新城疫病毒基因型分析的原理,利用JSP和数据库技术,构建了基于Web的新城疫病毒基因分型系统,实现了对NDV快速分型的目标。(3)根据新城疫病毒基因组分析的需要,开发了基于Web的NDV生物信息分析系统,可以提供对NDV核酸和蛋白序列的提交、检索查询、核酸序列分析、蛋白质序列分析等功能。(4)测定了9个NDV分离株的全基因组序列,其中基因VIⅧ型毒株为首次测序,并提交到GenBank核酸序列库中,为开展不同基因型NDV全基因组的比较研究提供了条件。(5)对鹅源株NDV全基因组的密码子使用情况进行了分析,确定了NDV基因组中优先使用的密码子情况,计算了密码子使用的相关指数,并与鹅、鸡的密码子使用进行了比较。(6)利用研究开发的Z曲线分析系统,对不同基因型NDV全基因组进行了几何学的比较,探明了NDV基因组中碱基分布规律,发现在Z曲线表示上,从基因Ⅰ型到基因Ⅷ型有向Z轴靠拢的趋势。(7)对53株不同基因型的NDV全基因组序列进行了系统的比较研究,分别从基因组核酸水平和蛋白质水平作了系统的比较,分析了遗传进化规律,对不同来源毒株的F和HN蛋白三级结构进行了模拟,对相关毒株F和HN蛋白中特征性氨基酸位点及其在结构中的位置进行了标记。