论文部分内容阅读
生物活性肽在细胞生物学中扮演了重要的角色。通过计算机辅助药物设计方法研究生物活性肽的结构/功能之间的定量关系,亦称为肽定量构效关系(peptide QSARs),是目前新型生物肽类药物研发的热点之一。氨基酸描述子被广泛应用于肽定量构效关系相关研究当中,其利用肽和蛋白质的基本组成“模块”即氨基酸作为分析单元,进而表征整个肽的序列和结构特征,并采用机器学习和统计建模将之与其生物活性或药效加以关联,得到肽的结构与活性之间的定量函数关系。经我们系统分析表明,在过去数十年中研究者们已经提出了几十种的氨基酸描述子。由于新型氨基酸描述子源源不断被提出,导致相关研究者在使用和选择这些纷繁复杂的氨基酸描述子存在很大的迷惑和随机性。鉴于此,本文对已有主流氨基酸描述子进行全面系统的收集整理分类,并将之应用于多样生物活性肽的定量构效关系分析和比较当中。主要的工作包括如下:从前人报道中收集了33种氨基酸描述子,它们大致可以分为理化性质、拓扑性质、量化性质和综合性质等几大类型。将之应用于5个经典生物活性肽集的系统定量构效关系研究当中,在此过程中我们采用了2类线性的机器学习方法(包括MLR和PLS)和4类非线性的机器学习方法(包括SVM、LSSVM、RF、GP)开展了统计建模工作,总共构建了990个定量构效关系模型(33种描述子×5个活性肽集×6类机器学习方法),并采用内部交叉验证、外部盲验证和严格的蒙特卡洛交叉验证(MCCV)对所建模型的统计性能进行了深入剖析。进一步对所获得的统计量(R~2、RMSEE、Rcv~2、RMSCV、Rpred~2、Qest~2、RMSEP)开展了系统的比较研究,结果表明:BTD-PLS-V、BTD-SVM-GH-scales、BTD-GP-VHSE、BTD-GP-PCPS、BTD-LSSVM-V、BTD-LSSVM-G-scales、BTD-LSSVM-FASGAI、BTD-LSSVM-VHSE、BTD-LSSVM-ISA-ECI、BTD-PLS-SSIA-AM1、BTD-LSSSVM-SSIA-PM3这几个模型组合的建模效果好于其他模型,不仅内部测试集的拟合度很高,外部测试集的预测能力也十分的理想,并没有出现过拟合的现象,因此综合考虑这几个模型的建模结果要优于其他的模型组合。我们进一步采用主成分分析(PCA)方法将收集得到的大量原始(一级)氨基酸描述子加以数据压缩和信息提取,获得了一种新型综合(二级)氨基酸描述子,称之VGSV。采用其对5组生物活性肽数据集的定量构效关系建模并和上述一级氨基酸描述子建模结果进行比较分析。本文在统一框架下对前人发表的大量氨基酸描述子进行了收集整理,其本身可以作为一个基础的氨基酸描述子数据库。通过将这些描述子应用于一系列经典生物活性肽数据集上,并利用主流机器学习方法开展系统的定量构效比较研究,所获得的知识为进一步寻求描述子-肽类型-机器学习方法的搭配规律和适宜条件优化提供有益的帮助,为后人开展氨基酸描述子开发和肽定量构效关系研究给出了一个标准参考。此外,我们提出的新型二级描述子,几乎涵盖了传统氨基酸描述子的所有信息,在后续测试研究中亦表现出了良好的性能。因此其可以视为一种普适性的标准描述子用于覆盖功能多样的生物活性肽和蛋白质,并开展与之相关的药物设计和生物信息研究。