论文部分内容阅读
跨膜蛋白质在细胞生命活动中扮演着至关重要的角色,它可以作为通道连接细胞内外进行物质运输,也可以作为受体进行信号识别,还可以作为药物靶标参与药物反应。研究跨膜蛋白质功能有助于加深对于生物体生命活动的理解,而蛋白质结构和功能之间存在密不可分的关系,因此解析蛋白质的三维结构就可以在很大程度上帮助进一步了解跨膜蛋白质在生命活动中起到的作用。目前解析蛋白质结构的主要手段仍然是单晶体X射线衍射技术。使用X射线衍射法,首先是要对待研究的蛋白质进行结晶实验,但是此实验不仅需要昂贵的试剂,而且需要不断的优化实验条件以获取高质量的晶体。此外,研究表明并不是所有的蛋白质都能形成晶体,而对于结构特殊的跨膜蛋白质,获得其结晶的难度更大。为了最大程度地减少实验的消耗和有效地提高实验效率,目前已经开发了一系列可用于蛋白质结晶倾向性预测的工具,但是专门用来预测跨膜蛋白质结晶倾向性工具数量十分有限,且准确性不高。为了解决这一个问题,本论文中我们提出了新的预测跨膜蛋白质结晶倾向性的预测方法,并通过特征的优化进一步提高了工具的性能。我们首先参考了已有的蛋白质结晶预测工作所使用的特征,对跨膜蛋白质的生物学特征进行量化,包括氨基酸组成、氨基酸物理化学性质以及伪氨基酸组成等特征。通过使用最大相关最小冗余和序列前向搜索相结合的特征选择方法,得到了一个相对最优的特征子集。接着比较随机森林、支持向量机、K近邻、逻辑回归以及极度梯度提升(XGBoost)五种常用的机器学习模型预测结果,最后确定使用XGBoost结合EasyEnsemble方法构建了一种新的跨膜蛋白质结晶倾向性预测工具(PTMC I)。实验结果表明,氨基酸在序列中出现的频率,以及氨基酸固有的理化性质这两组特征对于跨膜蛋白质结晶倾向性预测具有重要贡献。与其它非跨膜蛋白质结晶倾向性预测工具比较中,发现我们的PTMC I在跨膜蛋白质结晶倾向性预测上具有较高性能,测试集的AUC达到了0.865。跨膜蛋白质由于其特殊的物理和化学特性,通常难以溶解。根据结晶实验中跨膜蛋白所展现的特性并结合相关文献报道,我们量化了相对溶剂可及表面积分布和相对溶剂可及表面积的分布与疏水性的乘积两组特征。再结合一般性生物学特征,通过特征选择后,确定60维特征并用于最终模型的构建(PTMC II)。我们结合选择出的特征和XGBoost模型训练了PTMC II,其在测试集上的AUC达到了0.952,相比于PTMC I在性能上有较大的提升,这也说明序列信息和结构信息的结合可以更有效地预测跨膜蛋白的结晶倾向性。近年来随着蛋白质结构领域越来越受科研工作者的关注,因而有关于结晶实验的数据也在不断地在增加,我们构建的高性能跨膜蛋白质结晶倾向性预测工具,将会对跨膜蛋白质结构和功能研究工作提供非常大的帮助。