蛋白质若干结构预测问题研究及其软件实现

来源 :浙江大学 | 被引量 : 8次 | 上传用户:jmdwj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质结构预测一直是蛋白质结构研究的热点方向。由于蛋白质序列是蛋白质结构形成的基础和决定性条件,因而本论文主要通过蛋白质的序列来预测蛋白质的结构。本论文的主要工作和成果可以归纳为以下几点:(1)蛋白质序列特征信息的提取为了能更好的进行蛋白质结构类和二级结构的预测,本文首先提出了一套较为全面、有代表性、能最大程度反映蛋白质序列特性的特征信息。这套特征信息包含了序列统计特征、序列物理化学特征、序列信号特征三方面的信息,并且能全面涵盖蛋白质序列中的短、中、长程之间的关系。(2)蛋白质结构类预测结构类预测算法一直是蛋白质结构预测的热点。针对传统结构类预测算法中较少考虑序列长程效应的缺点,本论文把(1)中新的特征信息引入到了训练和预测当中。在蛋白质结构类研究当中,训练过程用到直接平均法、神经网络方法。分类过程中用到的算法为:神经网络法、最近邻居法、bayes法和本论文提出的最大信息量法。其中,最近邻居法是文献当中主要使用的方法,用该方法可以横向比较本论文与其他文献结构类的预测结果。采用神经网络和最大信息量法能够很好的提升结构类的预测正确率。数据集和评价体系也是蛋白质结构类预测的一个重要因素。本论文通过构建一个包含所有已分结构类的蛋白质序列非冗余数据集,保证了数据集的全面性、有效性和可靠性。本论文还通过多种评判指标来分析结果的各种性能。本论文提出的方法对蛋白质结构类预测的正确率可以达到74.3%(留一法),比主要文献提到的正确率要高2%-20%。(3)蛋白质二级结构预测在本论文中,蛋白质二级结构的预测并不考虑序列比对的信息,这是为了在预测中不引入与蛋白质自身序列无关的信息,这样可以对特征信息提取和预测算法做更好的评判。蛋白质二级结构预测的关键问题是二级结构片段位置的确定以及二级结构片段类型的预测。本论文通过考察蛋白质疏水值的局部特性来定位二级结构片段,通过对二级结构片段特征信息的训练得出三种二级结构类型的代表性特征向量,并将其作为预测的依据。二级结构片段定位中用到的方法为小波变换法,片段类型的训练和预测过程中用到的算法为直接平均法。本论文提出的蛋白质二级结构预测方式较为新颖,并且具有生物学意义。在蛋白质二级结构预测中用到的是CB396数据集,这个数据库具有低序列相似度和低序列冗余度的特性,并且已经有多种方法对该数据库做了测试,方便了本论文结果与其它方法结果的比较。从结果看,本论文的二级结构预测正确率(Q3)达到70.21%,SOV的正确率为67.14%。这一结果与现有的方法相比相差无几。最后,利用蛋白质结构类的信息,得到了蛋白质结构类倾向性因子这一特征信息,该特征信息比传统的倾向性因子更能反映氨基酸对二级结构的偏好性。(4)蛋白质结构预测软件编写根据本论文提到的与蛋白质结构类和二级结构有关的特征信息、预测方法和预测模型,编写了蛋白质结构预测软件。该软件具有多参数、多分类方法的特点,用户可以自己定义特征信息和机器学习方法,方便灵活。在默认状态下,程序会自动调用本论文的预测模型以及所使用的参数,使得用户可以直接使用本论文的研究成果。
其他文献
此论文包含两部分内容:前三章阐述利用化学交换饱和转移(chemical exchange saturation transfer, CEST)实验获取蛋白质激发态赝接触位移(pseudocontact shifts, PCSs)的研究;第四章阐述利用核磁共振(nuclear magnetic resonance, NMR)对蛋白质-配体弱相互作用的初步研究。蛋白质的激发态构象在蛋白折叠、分子识别、
信息科学是研究信息运动规律和应用方法的科学,近30年来,信息科学与量子力学相结合而兴起的量子信息科学受到了广泛的关注。量子信息科学由于一些新奇特性,比如量子态的不可克隆性、线性叠加性、纠缠特性等,使其在量子计算、量子信息、量子度量等方面显示出十分广阔技术应用前景。量子计算机的并行处理能力使其计算速度远远快于经典计算机,在密码破解、量子搜索等方面展示出了巨大的潜力。量子信息利用量子态不可被克隆性、纠
本文主要对两类统计推断方法进行了研究.一类是有关随机偏微分方程的参数估计,另一类是有关分布的非参数检验.众所周知,偏微分方程可用于随时间和空间变化的复杂系统的建摸.许多领域中的数学模型都可以用偏微分方程来描述,而实际上,大量现象都是随机现象,因此,自然地将随机分析的方法引入到偏微分方程中,便有了随机偏微分方程(Stochasticpartial differential equations)(SP
学位
蛋白质翻译是生命活动的重要过程之一,核糖体是负责蛋白质翻译的分子机器。核糖体成熟中存在rRNA的修饰,rRNA修饰会影响核糖体的结构和功能,而且与抗生素的结合密切相关。在过去的几十年中,许多rRNA修饰酶的结构或复合物结构得到了解析,揭示了修饰酶对RNA底物的特异性识别机制和酶活机制。在大肠杆菌等细菌中,大部分rRNA甲基转移酶都只对一个特定的位点或两个临近的位点进行甲基化修饰。在大肠杆菌中,23
计算力学是CAE(Computer Aided Engineering)的基础,随着计算机的高速发展,它逐渐成为力学工作者解决工程问题最重要的手段之一。自上个世纪五十年代出现有限单元概念以来,有限元方法因其特别适合在计算机上实现,并对各种力学问题表现出广泛的适用性,因而在工业应用需求的推动下,一直得到广泛的关注,发展非常迅速。T.H.H.Pian于1964年基于Hu-Washizu变分原理提出了杂
耐辐射球菌(Deinococcus radiodurans, DR)以对电离辐射,UV辐射,干燥以及DNA损伤试剂具有超强的抗性而著称,它能在几个小时内准确地修复由辐射产生的几十个双链DNA碎片(double-strand breaks, DSBs)。耐辐射球菌所具有的抗性能力主要归功于其体内高效的DNA修复系统和抗氧化系统。电离辐射所产生的约80%DNA损伤是由辐射水解形成的活性氧自由基(rea
合金材料在航空航天等重要工程应用领域都有着不可或缺的广泛应用。微波烧结作为一种新兴的制备方法,相比于传统方法,可以获得更加优秀的合金性能。相比于单一组分纯金属,合金中广泛存在的异质相是赋予其优秀性能的关键。而目前对于微波烧结过程中异质相对烧结行为的驱动机制仍不明晰,成为了限制微波烧结合金制备技术进一步发展的关键瓶颈。揭示异质相在微波烧结过程中对结构演化和最终性能的驱动机制,对于从根本上理解微波烧结
我国的侏罗系以陆相沉积为主,这其中产出了丰富的叶肢介化石。由于叶肢介化石分布广泛、演化速度快、产出个体数量可观,因此在侏罗系的划分和对比研究中起着至关重要的作用。过往的文献资料显示,我国西北地区含有丰富的叶肢介属种,但这些属种大都缺乏详细的描述和清晰的图版。此外,过去对叶肢介的鉴定主要是在光学显微镜下进行,这使得叶肢介壳瓣上一些具有重要分类学意义的细微装饰没能被记录下来,从而降低了分类的准确性。基
本文主要研究Banach空间上的误差界问题,包括以下两类问题:1、无限复合凸不等式系统的误差界问题.设I是任意指标集,X,Xi(i∈I)是Banach空间.考虑无限复合凸不等式系统其中对任意i ∈ I,Fi:X→Xi是Frechet可微映射,hi:X →R :=R∪{+∞}是下半连续真凸函数.2、抽象锥不等式系统的误差界问题.设X,Y是Banach空间,考虑抽象锥不等式系统其中F : X → Y是
1988年,Polo kinase家族在果蝇细胞中发现。在随后的研究中,人们发现Plk家族作为一个重要激酶家族,执行了多项重要的功能调控中来促进细胞的分裂。在Plk家族的五个成员当中,被研究最多也最为广泛的是Plk1,其多种功能都与细胞周期的调控息息相关。在间期,Plk1的活性受到自身结构的调节,其C端的PBD结构域和N端的激酶结构域相互作用,使得Thr210(T210)的激活位点不能暴露出来,P