论文部分内容阅读
定量构效关系(Quantitative Structure Activity Relationship,QSAR)是结构特征的描述符与生物活性之间的关系,可以作为化学计量方法应用于药物的设计和发现的过程中。因为用实验方法确定大量蛋白质或多肽的性质效率低下且昂贵,所以引入了诸如定量构效关系分析之类的计算方法,能够有效地解决此类问题。氨基酸描述子是氨基酸的拓扑性质,物理化学性质,三维结构或其他性质的定量值,用于定量描述氨基酸的结构和性质。多肽QSAR研究的主要方法是使用氨基酸描述子来表征多肽。近年来,已经有许多关于QSAR的研究,也有一些是基于氨基酸理化性质的AAindex数据库得到的描述子,而最近AAindex数据库有所更新,并且理化性质描述子的建模效果优于其它类型的描述子,具有意义明确和结果易解释等优点,所以为了更准确地预测结构变化和生物活性之间的关系,我们不仅收集了AAindex数据库中共计天然氨基酸的566种理化性质参数,并且综合采用近年发展起来的高斯过程回归和随机森林回归以及另外四种更常用的回归方法来建模进行定量构效关系研究。本论文的主要内容是在AAindex数据库中收集了天然氨基酸的566种物理化学性质参数,并收集了苦味二肽、血管收缩素转化酶抑制剂、血管舒缓激肽促进剂、后叶催产素和抗菌肽的多肽序列和实验观测活性值,将天然氨基酸的566种物理化学性质分为疏水性质、立体空间性质、电性质和组成性质四大类,分别并且总体地用matlab软件进行主成分分析,得到一组新的氨基酸描述子H5、S8、E7、C5和V9。用这五种氨基酸描述子分别表征五种多肽样本集,而后按照2:1的比例划分为训练集和测试集。分别用多元线性回归、偏最小二乘回归、支持向量机回归、最小二乘支持向量机回归、随机森林回归和高斯过程回归6种机器学习的方法进行定量构效关系建模,对建模方法进行比较分析;用留一法进行内部验证以及外部验证,确保模型的有效性。可以得到一组统计量结果:训练集的拟合系数R~2,均方根误差RMSEE,交叉验证的拟合系数R~2cv,交叉验证的均方根误差RMSCV,测试集的预测相关系数R~2pred,外部交叉验证系数Q~2est,预测的均方根误差RMSEP,从而综合全面地从模型的拟合能力、稳定性以及最为重要的预测能力来评测所建模型的优劣。我们发现了几组模型不论是拟合性、稳定性还是预测能力都明显优于前人描述子的搭配组合,E7-BTD-MLR、E7-BTD-PLS、E7-BTD-GP、S8-BTD-GP和V9-ACE-SVM,建模的统计量结果R~2、RMSEE、R~2cv、RMSCV、R~2pred、Q~2est、RMSEP依次为:(1)0.946、0.140、0.796、0.273、0.913、0.915、0.193;(2)0.946、0.141、0.831、0.249、0.918、0.919、0.188;(3)0.943、0.145、0.830、0.249、0.929、0.930、0.175;(4)0.925、0.166、0.736、0.311、0.902、0.903、0.206;(5)0.903、0.310、0.790、0.457、0.939、0.939、0.243。将这一组氨基酸描述子应用于苦味二肽、血管收缩素转化酶抑制剂和后叶催产素,都取得了比较好的效果。(1)C5描述子:对于苦味二肽,用MLR、PLS和GP方法建模取得了比较好的结果;对于血管收缩素转化酶抑制剂,用SVM方法建模的结果很好。(2)E7描述子:对于苦味二肽,用MLR、PLS和GP方法建模得到了非常好的结果,用SVM和LSSVM方法的建模结果也比较好;对于血管收缩素转化酶抑制剂,用RF方法的建模结果比较好。(3)H5描述子:对于苦味二肽,用MLR、PLS和GP方法的建模结果比较好;对于血管收缩素转化酶抑制剂,用PLS、GP和SVM方法的建模结果比较好;对于后叶催产素,用GP方法建模得到了非常好的效果,用PLS方法的建模结果也比较好。(4)S8描述子:对于苦味二肽,用GP方法建模取得了非常好的效果,用MLR、PLS、SVM和LSSVM建模的结果也较好;对于血管收缩素转化酶抑制剂,用MLR、GP和SVM建模的结果比较好;对于后叶催产素,用MLR、PLS和GP方法建模的结果比较好。(5)V9描述子:对于苦味二肽,用MLR、PLS、GP和SVM方法建模的结果比较好;对于血管收缩素转化酶抑制剂,用SVM方法建模取得了非常优秀的效果,用其它五种方法建模的结果也都比较好;对于后叶催产素,用MLR、PLS和GP方法建模的结果比较好。对于血管舒缓肽促进剂和抗菌肽,用六种方法建模的结果都不够理想。这五个氨基酸描述子对五组多肽样本有不同的适用性:对于苦味二肽,E7描述子的应用效果最好,总体地是用PLS和GP方法建模的效果最好;对于血管收缩素转化酶抑制剂,H5描述子的应用效果最好,用SVM方法建模的效果最好。这一组理化性质描述子用GP、PLS、MLR和SVM方法所建的定量构效关系模型普遍更为有效;不同的氨基酸描述子应用于不同的多肽样本集,所适用的建模方法有所差异。