隐马尔可夫模型用于变长序列的G蛋白偶联受体超家族的识别研究

来源 :同济大学 | 被引量 : 0次 | 上传用户:liongliong572
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自人类基因组计划(HGP)开展以来,人们已经获取了大量的DNA、RNA及蛋白质序列的数据.有人说,基于序列的生物学时代已经到来,尽管对"序列生物学"这一提法可能有所争议,但是今日像潮水般涌现的序列信息却是无可争辩的事实.截至目前,登录在GeneBank数据库中的DNA序列总量已经超过73亿碱基.生物学数据的积累并不仅仅表现在DNA序列方面,与其同步的还有蛋白质一级结构,即氨基酸序列的增长.目前已有18个生物体的完整基因组被破译,已有8900多种蛋白质和其他生物分子的空间结构被阐明,这些都构成了生物信息的重要组成部分.数据并不等于信息和知识,但却是信息利知识的源泉,关键在于如何从中挖掘它们.与正在以指数方式增长的生物学数据相比,人类相关知识的增长(粗略地用每年发表的生物、医学论文数来代表)却十分缓慢.一方面是巨量的数据;另一方面是我们在医学、药物、农业和环保等方面对新知识的渴求,这些新知识将帮助人们改善其生存环境和提高生活质量.这就构成了一个极大的矛盾.这个矛盾就催生了一门新兴的交叉科学,这就是生物信息学.生物信息学是一门新兴的边缘交叉学科,是近年来国际上的研究热点.生物信息学是利用信息技术来理解生物问题的一种手段,是探索生命奥妙,扩展生物医学行为数据使用的一种方法,是通过计算方法将生物信息转化为知识的工具.它是一门利用信息来理解生命活动的科学,它综合利用了生物学、计算机科学与技术、数学等学科的优势,借以探索现有的海量生物学数据中蕴含的生物学意义.人们获得各种核酸和蛋白质序列的目的是了解这个序列在生物体中充当了怎样的角色.该文的工作主要分为针对核酸序列的预测和针对氨基酸序列的预测两部分.剪切点和启动区域的预测主要是基于基因序列的预测.GPCRs超家族的识别和蛋白质二级结构含量的分类预测则以氨基酸序列作为研究的数据来源.G蛋白偶联受体(G Protein Coupled Receptors,GPCRs)是体内最大的蛋白质超家族,许多疾病与之密切相关,GPCRs因此成为药物治疗的重要靶标.然而,大多数GPCRs三级结构仍然是未知的.随着人类基因组以及其它种类生物基因组的开展,大量的GPCRs的一级结构信息即氨基酸序列的数据已经获得.在缺乏实验数据的情况下,通常可以利用计算方法对新发现的受体进行识别,给出它们可能隶属的类别,从而发现其潜在的功能.比如:如果发现一个新的受体序列与现有的某蛋白质家族有很大的相似性,我们就可以在一定程度上推测该受体可能具有该类蛋白质家族的一些特征和功能.针对这个问题,该文采用了一种隐马尔可夫模型的方法,利用GPCRs一级结构信息和数据自身特性,在GPCRs超家族层次各类别之间进行识别,具体考虑了ACDE与B类超家族,以及BCDE与A类超家族的分辨,取得了不错的效果,类之间的识别准确率可以达到100%.研究过程中,我们考虑了生物统计过程中常见的不等长变量问题.通过与常规的等变量截取效果的对比,我们也证明了HMM用于不等长的同源蛋白序列分类的预测是非常合适的.除了对GPCRS超家族的分类研究之外,我们还尝试将HMM用于真核生物的剪切点和初始转录位点(TSS)的识别.用HMM对真实剪接位点和虚假剪接位点进行识别,识别率均可达90%以上.采用HMM从方法的角度直接识别启动子,准确率在75%左右.HMM在计算机上的实现是一个比较成熟的问题,为此我们专门采用VB.NET开发了一个针对我们序列研究的HMM软件,在计算迭代过程中,考虑了有些数据的特殊性,使得程序较其他类似的HMM软件有较好的表现和计算速度.
其他文献
有机硅能改性丙烯酸酯乳液的综合性能。但同时在应用方面也存在不少难题。例如:一般带双键的反应型的有机硅在水溶液中容易水解,给聚合反应带来麻烦;如用阻碍性的有机硅单体进行普通乳液聚合反应,涂料的固化时间长,不能充分发挥有机硅的改性作用。为了解决以上两方面的难题,可利用无皂乳液聚合的方法解决以上问题,这方面的研究尚未有文献报道。 通过考察单体配比、反应温度、引发剂用量、反应时间和加料方式等对无皂乳
室温磷光测氧技术是近年来新兴并迅速发展起来的一种简便、灵敏、快速的方法。与传统的测氧方法相比,它在测量过程中不消耗氧,不需要参比电极,不用连接电流,不受外界电磁场干扰,与样品流通速率和搅拌速率无关,响应速度快。因此,近几十年来,磷光传感器的研究十分活跃。 本文就室温磷光氧传感器的发展、常见的类型及其在生物、环保、医药卫生等方面的应用,做了较为详尽的综述。 本实验以钯卟啉作为磷光指示剂,
计算机辅助药物设计(CADD)在药物的先导化合物的发现和开发过程中起着日益重要的作用.通过计算化学和计算生物学方法地运用,可以在原子水平上系统研究药物分子的物理化学性质
人类基因组计划(HGP)是人类为了认识自己而进行的一项最伟大和最具影响的研究计划,目前已基本完成了人类基因的全序列测定.但问题是面对大量的基因或基因片断序列如何研究其
“英语学科课程标准”明确提出了英语学科的培养目标“学以致用”.陶行知先生指出:“千教万教,教人求真;千学万学,学做真人.”因此,“教人求真,学做真人”,是生活教育培养人
该论文是在以往制品的基础上,重点改善制品的韧性问题.通过加入弹性体和自制胶改性过的聚苯乙烯泡沫塑料(EPS),利用普通硅酸盐水泥作为胶凝材料,加入防水剂提高防水性能,在常
近些年来重金属污染水源的现象越发严重,含有重金属废水的处理日益成为人们研究的热点问题。本课题针对ⅥB族元素的共性与特性,研究其在水体中吸附分离特性,同时选取SCR废催化剂中有价金属提取回收过程中产生的含有钒、钨的废水和因钼矿开采与开发而受到钼污染的地表水作为重金属含氧酸盐的典型代表,通过寻找廉价、高效、环境友好型的新型处理方法来解决实际生活中的问题。本课题实验研究铁基氧化物纳米颗粒对溶液中的Ⅵ族元
手性多金属氧酸盐由于集多酸和手性材料的优秀性质于一体,在手性光学器件、立体选择性催化以及药物化学等领域都具有诱人的前景。这类化合物的设计、合成及性质研究也是一项极具挑战性的课题。本论文从分子设计的角度出发,成功构筑了一系列基于Evans-Showell型多金属氧酸盐[Co2Mo10O38H4]6的手性化合物及外消旋化合物。通过元素分析、红外、固体漫反射、热重、X-射线单晶衍射、X-射线粉末衍射以及
啥是应季?啥是快消?应季产品是当前季节需要生产的产品,如农副产品、夏凉商品、冬令商品等;快消品则是指那些使用寿命短、消费速度较快的消费品。现在市场上很多创业者都在从
该文利用循环伏安法、取样电流法和交流阻抗法等电化学方法,研究了温度范围在1073K~l133K时,TiO在熔融CaCl中还原为钛金属的电化学行为.推断TiO在CaCl熔盐中的电化学还原是分