偏最小二乘QSAR模型的建立验证与应用研究

来源 :东南大学 | 被引量 : 0次 | 上传用户：jovkin

【摘要】

：

评估各种化合物的毒效应是毒理学的重要任务。但是传统的毒理学试验代价昂贵且耗时耗力，计算毒理学方法已经被视为评估化合物潜在毒性和环境影响的有效替代方法。定量构效关系

【作者】

：

王萌

【机构】

：

东南大学

【出处】

：

东南大学

【发表日期】

：

2014年期

【关键词】

：

偏最小二乘QSAR模型变量选择生物富集因子纳米金属氧化物

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

评估各种化合物的毒效应是毒理学的重要任务。但是传统的毒理学试验代价昂贵且耗时耗力，计算毒理学方法已经被视为评估化合物潜在毒性和环境影响的有效替代方法。定量构效关系(QSAR)模型通过建立化合物的结构特征参数与其生物活性（或理化性质）之间的关系构造统计学模型来完成对同类活性未知化合物的快速预测，可缩短研究时间，减少实验消耗，成为毒理学研究领域的重要研究方向。目前QSAR常用的建模方法包括线性和非线性算法。其中线性模型以其计算简单、实现方便、易于解释等优点，在QSAR模型建立中应用最为广泛。偏最小二乘回归集主成分分析、典型相关分析和多重线性回归等3种方法的优点于一身，与经典多重线性回归相比，可以有效解决QSAR模型建立中自变量数即分子结构描述符过多导致的过拟合以及描述符间的多重共线性导致的估计问题。因此，本研究系统探讨PLS-QSAR模型的建立和验证的策略，以期为化合物的危险评估提供方法学支持。主要研究内容及结论如下:　　1、本研究基于两个实例数据探讨了全模型法、VW法、BPVQ法、FPVQ法等四种变量选择方法下建立PLS-QSAR模型的方法和策略。最终建立拟合能力、稳定性、预测能力均较好的最优模型，以完成对有机污染物生物富集因子和纳米金属氧化物细菌毒性的预测。研究结果表明，正确的变量选择方法不但能简化模型，还提高了模型精度和综合性能。有机污染物生物富集因子QSAR研究通过BPVQ法获得最优模型，模型的拟合能力(R2=0.8000)、内部预测能力(Q2CV=0.7762)和外部验证预测能力(Q2EXT=0.8242)均较好。纳米金属氧化物细菌毒性QSAR研究通过FPVQ法获得最优模型，其拟合能力(R2=0.9735)、内部预测能力(Q2CV=0.9513)和外部预测能力(Q2EXT=0.7748)优于以往研究。因此，针对不同数据的自变量相关性、样本量等特点，对于最终建立可解释性的最优模型需要采用不同的变量选择方法。　　2、同时，本研究还探讨了PLS-QSAR模型建立过程中主成分数的确定方法。本文基于有机污染物生物富集性QSAR研究和纳米金属氧化物细菌毒性QSAR研究，探讨交叉验证法单独使用及分别与限定主成分法、主成分检验法两种方法结合，确定主成分数的模型建立方法。研究结果表明，传统交叉验证法确定主成分可能产生过拟合的模型，因此可以结合限定主成分法或主成分检验法建立PLS-QSAR模型。　　3、本研究通过统计模拟试验探讨PLS模型自变量数、样本例数及自变量间相关性等3个参数组合下与MLR、PCR相比较的拟合能力和预测能力。模拟结果显示，PLS模型的拟合能力在小样本、低相关性数据中优于MLR模型，在小样本、高相关性数据中优于PCR模型。PLS模型的预测能力在各种情况下均优于MLR模型和PCR模型。　　由于偏最小二乘回归的算法特点，即模拟因变量时考虑潜在变量对观察变量的可解释性的基础上最大限度地利用自变量数据信息，在样本例数小、自变量数多，以及自变量间相关程度高时可发挥其优势。本研究结果显示PLS-QSAR模型的预测能力在许多情况下高于MLR模型和PCR模型。但是，模型的拟合和预测效果需要结合化合物作用机制和相关专业知识进行认真考察，以期在具体的数据背景下建立更为准确和合理的模型。

其他文献

新的环境应答基因JWA的结构与功能研究

人类许多疾病与接触环境因素有关，各种物理的、化学的和生物的有害因素暴露后，机体细胞很快产生应答，表现为一系列应答基因有序地发生表达水平的变化，使细胞尽快适应变化的环境而

学位

环境应答基因JWA分化凋亡白血病

深圳市老年人生活质量及其影响因素研究

目的:评价"老年人生活质量调查表"的信度和效度;了解深圳市农村老年人的一般健康状况、生活现状和生活质量状况;探讨、分析影响老年人生活质量的主要因素,为社区老年保健及危

学位

老年人生活质量影响因素健康状况流行病学调查

天津地区1071人骨密度研究

目的为探索天津地区人群腰椎、股骨上端骨密度（BMD）随年龄变化的规律，为本地骨质疏松症（OP）的诊断和防治提供科学依据，从而提高天津地区骨质疏松防治水平。方法笔者对天津地区20～7

学位

骨密度骨质疏松累积丢失率检出率

小波分析理论在疾病流行动态定量分析中的应用研究

该研究利用山东省平邑县1985年~2002年HFRS月发病率资料,在遵循流行病学原理的基础上,将小波分析理论和数理统计方法有机结合,定量研究了HFRS的流行动态变换趋势:①选择满足

学位

小波分析非平稳时间序列奇异点周期特征预测

数据链技术的军事应用研究

本文介绍了数据链技术在现代战争中的地位和作用，总结了该技术在国外精确制导武器中的军事应用和发展趋势，阐述了面临的关键技术，为我军建立基于数据链技术的精确打击体系和深化

期刊

数据链人在回路目标指示在线任务修订指挥协同

医学研究中的Bayes统计分析

随着MCMC(Markov chain Monte Carlo)方法的引进,Bayes方法在医学领域得到了广泛应用.但目前,国内的医学应用还很少见有报道.该研究对医学研究中的Bayes理论与方法进行了探

学位

Bayes统计先验分布后验分布Gibbs抽样MCMC模拟分层模型

偏最小二乘QSAR模型的建立验证与应用研究

其他学术论文