蛋白质折叠类型的预测模型构建及应用

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:feiyulaile
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质作为生命活动的承担者一直是生命科学领域研究的重点。由于实验方法确定蛋白质结构的速度已远远落后于蛋白质序列增长的速度,使得蛋白质三维结构预测的研究变得越来越重要。大量的研究表明,蛋白质的结构虽然多种多样,但是折叠类型的数量却是有限的,目前SCOP数据库和CATH数据库显示蛋白质的折叠类型总数都是一千多种。对蛋白质折叠类型进行研究相比于直接研究蛋白质三维结构将变得精准且容易。蛋白质折叠类型识别即是针对蛋白质折叠类型的研究,是蛋白质三维结构预测的一种方法。本文以SCOPe数据库中的四类蛋白α类、β类、α/β类、α+β类为研究对象,建立了一种基于氨基酸序列的蛋白质折叠类型识别方法。该方法提高了折叠类型识别的样本覆盖范围,且获得了较高的识别精度。本文的主要工作包括:1.建立家族模型集和扩充家族模型集以四类蛋白质中的家族为单位,为每一个晶体结构样本不少于两个的家族进行多结构比对,利用比对信息建立隐马尔科夫模型。组成以家族为代表的蛋白质折叠类型识别模型集,简称家族模型集。并在此基础上对家族模型集进行扩充形成了扩充家族模型集。2.建立超家族模型集和扩充超家族模型集以四类蛋白质中的超家族为单位,为每一个晶体结构样本不少于两个且能进行多结构比对的超家族建立隐马尔科夫模型。形成以超家族为代表的蛋白质折叠类型识别模型集,简称超家族模型集。并在此基础上进行扩充形成扩充超家族模型集。3.模型识别效果检验利用SCOPe-2.05和SCOPe-2.06数据库中的数据构造了四个检验集,对所建立的四个模型进行检验。家族模型集和超家族模型集对四大类蛋白质的折叠类型的样本覆盖率分别达到86%和68%,对于其涵盖的样本在折叠类型上识别的准确率分别达到97%和94%以上。两个扩充模型集的样本覆盖率均达到97%,识别的准确度分别在95%和93%以上。4.实现自动化识别依据所建的四个模型集建立了一个蛋白质折叠类型识别的数据库。功能包括自动化识别待测蛋白序列的折叠类型和对模型集进行更新。本文以SCOPe数据库中的四类蛋白为研究对象,建立了家族模型集、扩充家族模型集、超家族模型集、扩充超家族模型集,用以对蛋白质序列进行折叠类型识别。并实现了折叠类型识别的自动化操作。本文的研究对样本的覆盖范围广且识别的准确度高。
其他文献
共价连接的抗人大肠癌双价单链抗体基因的构建及表达 前言 大肠癌是常见的恶性肿瘤之一,目前其发病率在我国居第三位,死亡率呈逐年上升趋势,因此探讨有效的诊断和治疗手段是
要了解大学生幸福感失落的原因,首先我们要知道何为幸福感。了解幸福感的定义,据查阅资料可知;幸福感是指人类基于自身的满足感与安全感而主观产生的一系列欣喜与愉悦的情绪(
随着移动互联网的不断发展,用户的业务也从单一的通话需求发展为多元化、多种类的业务需求。主流的两种无线网络技术:移动通信系统和无线局域网系统互有优劣,无法相互替代,因
目的 通过对一起典型的因肠道致病菌导致的食物中毒案例进行病原菌的分离鉴定及溯源分析,为查找传染源、传播途径及制定预防控制措施提供科学依据。方法 采集病人粪便或肛拭,
采用城市脱水污泥为研究对象,设置两种堆肥处理(试验组:添加水稻生物质炭;对照组:未添加生物质炭),考察污泥堆肥过程温室气体动态变化特征以及添加生物质炭的影响。结果表明:生
以刺槐鲜花为原料,利用响应面法对刺槐鲜花酱的生产工艺进行优化。在单因素实验基础上选取实验因素的水平,根据中心组合(Box-Benhnken)实验设计原理采用三因素三水平的响应面
汽车企业要发展,提高核心竞争力就显得尤为重要。近年来,成本领先战略在制造业中被越来越广泛的应用,较好的弥补了我国汽车销售业在实施技术领先战略时的缺陷。提高成本控制
在清代珠三角民间社会的土地房产买卖契约文书中,作为家中长辈的女性或以主立契人,或以见证人、接银人等身份出现,契约中屡屡出现的"子母商议"、"母子商议"以及"与祖母及母亲
民间借贷在我国拥有悠久的历史,民间借贷具有低成本交易、高效率借款、快捷而简化的特点,所以自然人,法人和其他组织介入民间借贷有逐渐增多的趋势。那么随之而来,民间借贷中
铁电材料是应用广泛的一大类功能材料,铁电性的有效利用和新功能效应的发现都有赖于对铁电性内在本质的深入理解。铁电体物理学是当代凝聚态物理学的一个重要分支。铁电体畴结