论文部分内容阅读
蛋白质是一种重要的生物学分子,根据蛋白质的氨基酸序列预测其三级结构是一个富有挑战的问题。其研究成果在理解蛋白质的功能,研发新型药物等方面都可以发挥巨大的作用。随着人类基因组计划的完成,基因组测序技术测出了越来越多的氨基酸序列。与此同行,经过科研人员的不断探索,如今解析蛋白质结构的主要实验观测方法有X射线晶体学,核磁共振波谱和冷冻电镜。这些现有方法往往需要耗费大量的时间以及昂贵的财力,从而导致通过实验观测进行结构解析的速度无法跟上蛋白质序列的飞速增长。然而,若采用预测的方法获取蛋白质的三级结构,现阶段预测精度不高,其建模结果可靠性较差。对此,本文提出利用深度学习对蛋白质结构预测进行辅助建模的方法。其具体研究内容如下:1.针对现阶段基于模板建模和从头建模的主要缺点,即基于模板建模可能面临找不到整条模板或模板质量不佳的情况,而从头建模缺少模板的支撑通常导致预测精度不高。本文提出使用模板约束来辅助从头建模的方法。该方法综合了现有主流方法的优点,即主要思想采用从头建模的方法,在建模过程中使用模板提供的额外信息对结果进行优化。2.在从头建模中,本文设计两个深度神经网络,通过整合蛋白质结构,协同演化以及物理-化学等特性作为特征,分别对蛋白质氨基酸残基的距离和主链二面角进行预测并以此约束从头建模过程。为获得从头建模的初始化构象,本文使用PISCES对蛋白质数据库进行过滤并建立本地碎片库。在碎片筛选过程中,本文将预测的二面角信息作为约束,配合其他化学结构特征用于控制碎片筛选的质量,最终通过组装拼接碎片获得初始化构象。3.在利用模板信息中,相较于传统方法使用一个已知蛋白质结构作为模板,本文将使用多条模板信息。在进行多序列对齐后,将对齐后的序列根据同源相似性进行聚类,同时根据相似性程度计算该类的权重。在从头建模的模拟退火过程中,本文提出根据约束信息的置信度进行逐步迭代的方法,进而使预测结构在合理的范围内逐步精确。4.针对每个预测目标产生的大量候选结构,本文使用一种整合多尺度预测特征进行评估的方法。因预测的特征本身具备不确定性,相较于传统方法使用大量预测信息作为特征的机器学习模型,本文仅用线性加权的方法可避免过度学习不准确的特征且该计算模型简单高效。本文通过使用CASP13比赛发布的数据集作为测试样本,最终在FM和TBM/FM类别下45个接触预测目标上,本文预测结果的F1得分为第1名;在FM类别下的三级结构预测上,本文的Z-分数总和位居第2名。