论文部分内容阅读
生物活性肽(Bioactive Peptide,BAP)是一种是生命活动中有重要作用的短肽分子,在众多领域具有广泛的理论和应用价值。发现或合成具有高活性的生物活性肽的前提是对一条生物活性肽的活性进行准确的预测。利用定量构效关系来预测生物活性肽的活性,是现今生物活性肽活性预测研究领域最主要的方法之一。定量构效关系(QSAR)模型构建的一般方法为三个步骤:描述符提取,描述符筛选,回归模型建立。本文针对这三个步骤,对生物活性肽的QSAR模型建立方法进行改进。通过对血管紧张素转化酶抑制剂和阳离子生物抗菌肽两个数据集,对本文所提出的改进方法进行试验验证。主要研究结果如下: (1)在描述符提取上,本文基于地统计学和氨基酸物理化学性质,利用地统计学判定空间性关联的特性,提取地统计学关联描述符。在考虑氨基酸残基具体的物理化学性质对生物活性肽活性的影响的同时,考虑不同氨基酸残基之间的相互关联作用,通过地统计学计算,关联大小得以体现在描述符中。结果表明,基于地统计学的描述符提取方法,能较好的表述序列信息,尤其在肽活性受氨基酸残基间相互作用影响较大时,地统计学提取的关联描述符比直接提取的物理化学性质描述符具有更好的预测结果。 (2)在描述符筛选上,吸收了在分类研究问题上较为热门的最小冗余最大相关的先进理念,将其进行改进,使之能适用于QSAR模型中面对的由连续变量构成的回归数据;同时,采用逐个引入的方法,对所初步筛选得到的描述符进行了再次筛选。结果表明,本文所改进的描述符筛选方法,能有效的剔除初始描述符中的大量冗余描述符,精简了模型复杂度,提高了模型的预测性能,增强了模型可解释性。采用本文改进的描述符筛选方法保留的描述符,不仅能有效提升模型的预测性能,而且保留描述符具有较好的可解释性和生物学意义,本文通过对其分析,探索了影响血管紧张素转化酶抑制剂活性的主要残基位点及主要性质偏好,分析了影响阳离子生物抗菌肽活性的氨基酸残基性质影响规律,对进一步研究或合成高活性的生物活性肽提供了理论指导。 (3)在回归模型的构建上,采用了支持向量回归为基本的回归模型构建工具,采用地统计学筛选近邻样本,对每一个待测样本进行私有化预测。结果表明,基于地统计学的私有化预测,能有效找到最优近邻样本,进一步提升模型预测精度,所得预测结果均优于其他参比模型。 本文所提出的改进QSAR模型构建方法在生物活性肽的活性预测方面具有较好的预测能力及可解释性,在高维回归数据及其他QSAR研究领域有良好的应用前景。