论文部分内容阅读
化合物结构与其毒性的定量构效(QSAR)关系研究,因其建立具有预测毒性能力的模型,对已经进入人类中的生物毒物以及尚未投放市场的新化合物的毒性进行成功的预测和评价,因而在生物毒物领域研究中已经显示出极其广阔的应用前景。本论文从支持向量机的回归和分类两方面对四类不同物种毒性进行探讨研究。以“小样本,多维数”为特征的研究样本,采用最小二乘支持向量回归算法进行研究;以“小样本,贫信息”为特征的研究样本,采用支持向量机多类分类算法展开研究。 用Gsussian98程序的DFT-B3LYP方法在6-311G**水平上几何全优化和计算了30种硝基芳烃化合物分别对梨形四膜虫和圆腹雅罗鱼的量子化学结构描述符。经振动分析,所得稳定构型均无虚频,量化计算了10余种结构描述符如:μ、EHOMO、ELUMO、ENHOMO、ENLUMO、ΔE=ELUMO-EHOMO、Q-NO2、QC-NO2、V等,结合硝基芳烃对梨形四膜虫和圆腹雅罗鱼的急性毒性(-1gLC50)进行定量构效关系(QSAR)研究。 应用最小二乘支持向量机研究30种硝基芳烃对梨形四膜虫急性毒性。取25种硝基芳烃化合物构建训练集,5种硝基芳烃化合物作为预测集。对训练集建立数学模型,对预测集模拟。同时,列出逐步回归、偏最小二乘回归、径向基神经网络等方法的仿真结果,得出最小二乘支持向量机模型性能最优,在此模型基础上找出了影响该类化合物毒性的各个因素。 应用最小二乘支持向量机研究30种硝基芳烃对圆腹雅罗鱼急性毒性。取23种硝基芳烃化合物构建训练集,7种硝基芳烃化合物作为预测集。对训练集建立数学模型,对预测集模拟。同时,列出逐步回归、偏最小二乘回归、径向基神经网络等方法的仿真结果,得出最小二乘支持向量机模型性能最优,在此模型基础上找出了影响该类化合物毒性的各个因素。 应用支持向量机研究23种芳香腈对发光菌的毒性分类。选择适合的核参数,应用“穷举法”对参数进行优化,其正确率达到了90.91%,Fisher判别分析正确率81.82%,优于概率神经网络的72.73%。 应用遗传算法-支持向量机对77种多环芳烃毒性进行分类。由于“穷举法”优化参数耗机时间长,遗传算法具有隐含的并行性和强大全局搜索能力,可以在很短的时间内搜索到全局最优点,因此采用遗传算法对参数进行优化。对于毒性的分类:支持向量机的正确率为81.25%,Fisher判别分析的正确率为71.88%,概率神经网络的正确率为76.56%。 总之,支持向量机具有理论完备、全局优化、非线性映射强、泛化能力好的优点。而在实际化学 QSAR建模中影响因素繁多。高度非线性使常规多元分析方法有时难以解决,研究探索支持向量机这一新方法,总结归纳出泛化能力强的模型,对于化学理论与计算机化学学科发展是有意义的。