基于深度学习的蛋白质三级结构预测

来源 :湘潭大学 | 被引量 : 1次 | 上传用户:Fish_FF1314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质是一种重要的生物学分子,根据蛋白质的氨基酸序列预测其三级结构是一个富有挑战的问题。其研究成果在理解蛋白质的功能,研发新型药物等方面都可以发挥巨大的作用。随着人类基因组计划的完成,基因组测序技术测出了越来越多的氨基酸序列。与此同行,经过科研人员的不断探索,如今解析蛋白质结构的主要实验观测方法有X射线晶体学,核磁共振波谱和冷冻电镜。这些现有方法往往需要耗费大量的时间以及昂贵的财力,从而导致通过实验观测进行结构解析的速度无法跟上蛋白质序列的飞速增长。然而,若采用预测的方法获取蛋白质的三级结构,现阶段预测精度不高,其建模结果可靠性较差。对此,本文提出利用深度学习对蛋白质结构预测进行辅助建模的方法。其具体研究内容如下:1.针对现阶段基于模板建模和从头建模的主要缺点,即基于模板建模可能面临找不到整条模板或模板质量不佳的情况,而从头建模缺少模板的支撑通常导致预测精度不高。本文提出使用模板约束来辅助从头建模的方法。该方法综合了现有主流方法的优点,即主要思想采用从头建模的方法,在建模过程中使用模板提供的额外信息对结果进行优化。2.在从头建模中,本文设计两个深度神经网络,通过整合蛋白质结构,协同演化以及物理-化学等特性作为特征,分别对蛋白质氨基酸残基的距离和主链二面角进行预测并以此约束从头建模过程。为获得从头建模的初始化构象,本文使用PISCES对蛋白质数据库进行过滤并建立本地碎片库。在碎片筛选过程中,本文将预测的二面角信息作为约束,配合其他化学结构特征用于控制碎片筛选的质量,最终通过组装拼接碎片获得初始化构象。3.在利用模板信息中,相较于传统方法使用一个已知蛋白质结构作为模板,本文将使用多条模板信息。在进行多序列对齐后,将对齐后的序列根据同源相似性进行聚类,同时根据相似性程度计算该类的权重。在从头建模的模拟退火过程中,本文提出根据约束信息的置信度进行逐步迭代的方法,进而使预测结构在合理的范围内逐步精确。4.针对每个预测目标产生的大量候选结构,本文使用一种整合多尺度预测特征进行评估的方法。因预测的特征本身具备不确定性,相较于传统方法使用大量预测信息作为特征的机器学习模型,本文仅用线性加权的方法可避免过度学习不准确的特征且该计算模型简单高效。本文通过使用CASP13比赛发布的数据集作为测试样本,最终在FM和TBM/FM类别下45个接触预测目标上,本文预测结果的F1得分为第1名;在FM类别下的三级结构预测上,本文的Z-分数总和位居第2名。
其他文献
个人税收优惠型健康保险作为首个受到国家税收政策支持的个人商业保险产品,有着重大的现实意义。这款兼具税收减免和保障功能的健康保险产品,突破了保险业既往的业务模式与管
研究背景:糖尿病是当前威胁全球人类健康最重要的非传染性疾病之一。中国是全球糖尿病患者最多的国家,流行与防控形势严峻。全面反映糖尿病患病情况和流行趋势,发现并动态监
在临床实践和针灸国际标准研制中,存在着对"安全"概念的理解偏差。而如何基于语境来诠释"安全"的概念将是解决该问题的突破口。本文从该词语境要素和目标对象方面,运用文献综
棚民的生产活动会对生态环境产生重要影响,清代迁入徽州地区的棚民在农业、工矿业方面实施的不同土地利用方式使得徽州地区出现森林植被遭到破坏,水土流失加剧,大气污染严重
微博已经渐渐融入了现代人的日常生活,成为信息传播的又一个重要渠道。与此同时,微博信息的传播方式也受到研究者的广泛关注,有研究发现引发情绪的信息更容易被传播,但是为什
经过20多年的建设,世界范围内的电子政务均得到不同程度的发展。为了验证早期电子政务发展阶段的理论,明确当前电子政务发展所处的阶段。反思新时期电子政务带来的变化及电子政