论文部分内容阅读
蛋白质在生命活动中扮演着极为重要的角色,在生物体结构中发挥着关键作用。蛋白质广泛分布于细胞结构中,以蛋白质大分子的形式通过不同的折叠构象表达了多样的生物遗传基因。膜蛋白是作为一种重要的蛋白质类型主要存在于生物膜中,由于其结构的复杂性,目前已解决结构的膜蛋白数量非常少,在蛋白质数据库中膜蛋白所占比例不足蛋白质组总数的30%。但是膜蛋白分布在生物膜中,在分子运输、离子交换、膜的锚定、药物靶点以及药物设计等方面中有着至关重要影响,接近60%的药物作用在膜蛋白上。因此,解决膜蛋白的结构具有深远的意义。结构相似的蛋白质往往具有相似的功能,因此,获取蛋白质的结构对解析蛋白质功能机理具有重要的作用。在目前的后基因组时代,蛋白质数据库中所收录的序列数目已经达到百万级别并在迅速扩充,与之相比,而通过实验的方法已解决结构的蛋白质数量则存在巨大差距。因此,对获取更多蛋白质结构的需求尤为紧迫。目前测定蛋白质的结构可以通过传统的实验方法如X射线、核磁共振(NMR)和冷冻电镜(Cryo-EM)等方式。由于膜蛋白的结构复杂性,特别是其镶嵌在脂类层的跨膜结构具有疏水特性,利用实验的方法解决蛋白质结构时难以结晶,而且这种方式有着成本高昂,耗时长的弊端,所以为计算的方法预测蛋白质结构提供了广阔的发展空间。近些年来,随着模式识别研究领域的发展,基于机器学习和人工智能的方法得到了深入的研究和广泛的应用,其中,利用模式识别理论与方法预测蛋白质结构在生物信息学领域取得了一定的成果。利用当前蛋白质数据库中已解决结构的蛋白质数据为样本,按照一定的标准筛选并组织数据集,根据已知结构的注释信息建立训练数据的样本和类标,为实现机器学习算法提供了样本数据。与此同时,通过分析和研究蛋白质的结构及其特性,提取多种蛋白质特征,组建训练和测试数据集,然后运用机器学习算法训练预测模型。基于评价指标和交叉验证的方法检验算法流程的性能,从而实现对目标蛋白质的结构预测。另一方面,基于蛋白质残基特异性的统计计算和分析的方法,也取得了重要的进展,此类方法不需要训练过程,而是对大规模、高质量的样本进行统计计算。如同源性多重序列比对的方法,通过统计和计算共进化特征,得到蛋白质序列中残基之间的进化保守性关联信息。目前的这些方法在蛋白质结构预测方面虽然取得了一定进展,但还存在一定局限性和提升空间。在预测精确度、蛋白质结构特异性、不规则复杂空间结构、预测算法鲁棒性和蛋白质类型适用性方面还需提高,而且有些预测模型没有考虑蛋白质的结构特性以及氨基酸之间的局部关联特征。基于诸多方面,为了进一步提升和改善蛋白质结构预测方法的精度和性能,针对蛋白质序列的生物和结构特性,本文在β-桶状蛋白质(β-barrels)拓扑结构预测、残基相互作用以及β-链(β-strand)之间的关联性计算等方面进行了深入研究,并创新了预测模型的构建以及方法流程的设计。本文的主要贡献由以下几个部分构成:(1)通过从最新的蛋白质数据库(Protein Data Bank,PDB)筛选高分辨率蛋白质样本,构建高质量基准数据集。为排除数据集中蛋白质同源性的影响,去除相似度冗余,数据集中任意两条序列的同源性降低至30%,使得数据集涵盖更多的蛋白质超家族,从而使预测模型具有更为广泛的适用性,覆盖更多的蛋白质类型。通过组建高质量基准数据集进行训练和测试预测模型,其中,所构建的数据集相对于目前其他的方法,具有更大规模、覆盖蛋白质超家族更广、具高精度的蛋白质结构类标等特点,为建立预测模型提供更准确可靠的基准样本集及类别属性。(2)在特征提取方面,基于多视角蛋白质特征提取结合多重序列比对等方法,挖掘隐含的氨基酸进化保守性以及关联一致性信息。对多重同源蛋白质序列的结构特异性进行统计计算,利用基于优化的滑动窗口的方法将氨基酸结构特征与进化保守性信息进行融合,对特征矩阵采用稀疏编码算法进行抽取,达到了降低维度冗余和去除混入噪声的效果,进一步为提升预测蛋白质拓扑结构的性能。(3)本文提出了链学习的方法对膜蛋白β-桶状蛋白质(β-barrels)拓扑结构进行预测。克服了目前方法处理复杂特殊结构以及残基状态连续性等预测精确度较低的问题,本文通过融合局部序列中相邻残基之间的关联特性,挖掘隐含的状态连续性约束信息,与全局序列特征相结合,再通过构建两层分类器的方式,对上一层模型的输出结果进行优化,解决了目前的方法独立预测残基状态所带来的输出突变的问题,同时对预测概率曲线起到平滑作用,显著提高总体预测准确率。(4)在预测β-桶状蛋白跨膜结构的后处理阶段,提出了动态阈值的方法,对预测得到的概率曲线进行划分。这种方法是基于优化的初始阈值之上,根据统计的β-链(β-strand)长度分布,有针对性的处理由短的卷曲结构(Loop)连接的β-strand,能够识别β-转角(β-turn)和β-凸起(β-bugle)等不规则特殊的折叠片段,有效的去除易导致误分类的影响因素。经过对蛋白质结构的特异性分析,采用动态阈值分割的方法,对预测结果进行后处理,提升了预测模型的广泛适用性。(5)在基于预测膜蛋白拓扑结构的基础之上,预测β-桶状蛋白质关联图、β-strand结构相互作用关系,提出了融合共进化关联计算与机器学习的方法,实现了算法的优势互补,覆盖不同残基关联模式,提高了模型的泛化性能。在特征提取方面,采用了基于深度学习的神经网络框架,构建多层自动编码器,挖掘残基特征隐含的进化关联特性,实现高维特征的低维表达,同时,起到了对特征空间降维和去噪的作用,进一步提高了预测模型的性能。