论文部分内容阅读
评估各种化合物的毒效应是毒理学的重要任务。但是传统的毒理学试验代价昂贵且耗时耗力,计算毒理学方法已经被视为评估化合物潜在毒性和环境影响的有效替代方法。定量构效关系(QSAR)模型通过建立化合物的结构特征参数与其生物活性(或理化性质)之间的关系构造统计学模型来完成对同类活性未知化合物的快速预测,可缩短研究时间,减少实验消耗,成为毒理学研究领域的重要研究方向。目前QSAR常用的建模方法包括线性和非线性算法。其中线性模型以其计算简单、实现方便、易于解释等优点,在QSAR模型建立中应用最为广泛。偏最小二乘回归集主成分分析、典型相关分析和多重线性回归等3种方法的优点于一身,与经典多重线性回归相比,可以有效解决QSAR模型建立中自变量数即分子结构描述符过多导致的过拟合以及描述符间的多重共线性导致的估计问题。因此,本研究系统探讨PLS-QSAR模型的建立和验证的策略,以期为化合物的危险评估提供方法学支持。主要研究内容及结论如下: 1、本研究基于两个实例数据探讨了全模型法、VW法、BPVQ法、FPVQ法等四种变量选择方法下建立PLS-QSAR模型的方法和策略。最终建立拟合能力、稳定性、预测能力均较好的最优模型,以完成对有机污染物生物富集因子和纳米金属氧化物细菌毒性的预测。研究结果表明,正确的变量选择方法不但能简化模型,还提高了模型精度和综合性能。有机污染物生物富集因子QSAR研究通过BPVQ法获得最优模型,模型的拟合能力(R2=0.8000)、内部预测能力(Q2CV=0.7762)和外部验证预测能力(Q2EXT=0.8242)均较好。纳米金属氧化物细菌毒性QSAR研究通过FPVQ法获得最优模型,其拟合能力(R2=0.9735)、内部预测能力(Q2CV=0.9513)和外部预测能力(Q2EXT=0.7748)优于以往研究。因此,针对不同数据的自变量相关性、样本量等特点,对于最终建立可解释性的最优模型需要采用不同的变量选择方法。 2、同时,本研究还探讨了PLS-QSAR模型建立过程中主成分数的确定方法。本文基于有机污染物生物富集性QSAR研究和纳米金属氧化物细菌毒性QSAR研究,探讨交叉验证法单独使用及分别与限定主成分法、主成分检验法两种方法结合,确定主成分数的模型建立方法。研究结果表明,传统交叉验证法确定主成分可能产生过拟合的模型,因此可以结合限定主成分法或主成分检验法建立PLS-QSAR模型。 3、本研究通过统计模拟试验探讨PLS模型自变量数、样本例数及自变量间相关性等3个参数组合下与MLR、PCR相比较的拟合能力和预测能力。模拟结果显示,PLS模型的拟合能力在小样本、低相关性数据中优于MLR模型,在小样本、高相关性数据中优于PCR模型。PLS模型的预测能力在各种情况下均优于MLR模型和PCR模型。 由于偏最小二乘回归的算法特点,即模拟因变量时考虑潜在变量对观察变量的可解释性的基础上最大限度地利用自变量数据信息,在样本例数小、自变量数多,以及自变量间相关程度高时可发挥其优势。本研究结果显示PLS-QSAR模型的预测能力在许多情况下高于MLR模型和PCR模型。但是,模型的拟合和预测效果需要结合化合物作用机制和相关专业知识进行认真考察,以期在具体的数据背景下建立更为准确和合理的模型。