论文部分内容阅读
通常采用多元线性回归、偏最小二乘、人工神经网络等方法建立定量结构-性质/活性相关(QSAR/QSPR)模型。这些统计学方法是基于样本趋向于无穷多的基础上发展起来的,然而,由于人力、财力、物力的不足以及方法学本身的缺陷,致使人们常常不能获得足够多的样本数据,导致所建QSAR模型常常不稳健或可预测能力较差。为此,本文将近年来兴起的、从基于小样本的统计学习理论中诞生的支持向量机(SVM)算法引入QSPR/QSAR中,研究与拓展了SVM分类与回归算法在聚氯乙烯耐有机溶剂性能、部分有机化合物毒性作用模式分类和对多氯代二苯并二噁英的气相色谱保留行为、部分有机化合物毒性回归建模中的应用,结果表明了SVM算法在解决小样本分类与回归问题中的优势。
本文主要研究内容及取得的成果如下:
1.支持向量机概述。
支持向量机是Vapnik等人在统计学习理论基础上提出的一种确定两类问题最优分类超平面的有效算法。与传统模式识别的降维方法不同,SVM算法是一种升维映射分类,它首先将描述变量构成的输入空间通过不同的核函数进行非线性映射,变换到更高维的特征空间,进而通过最优化各类样本在该高维空间中的分类距离确定最大边界超平面,并确定最优分类超平面,最终通过支持向量解决样本分类问题。由于SVM具有比神经网络更好的泛化推广能力,能消除神经网络的过拟合现象,能对小样本问题构建稳定可预测的统计分类模型,并能拓展到多类分类与回归问题。因而已成为计算智能技术研究及其相关应用领域中新的研究热点。本文从统计学习理论开始概括了SVM算法用于模式识别和回归计算的原理,总结了SVM中用到的优化算法的发展情况,以及SMO(sequentialminimaloptimization)算法的实现策略,SVM软件的使用方法。
2.SVM算法在分类中的应用研究。
(1)以73个有机溶剂和水分子的溶解度参数分量为自变量,非晶态聚氯乙烯在有机溶剂中的耐蚀性能为因变量,建立了SVM分类模型,模型对全部样本只有4个识别错误;其LOO(Leave-One-Out)交互检验只有6个样本识别错误;建立了40个训练样本的模型,对全部样本识别也只有6个不正确,其中训练集5个,检验集1个。
(2)以选定的醇、酮、醚、链烃、胺等190个有机化合物的辛醇/水分配系数Log(Kow)、最低未占有轨道能ELUMO、最高占有轨道能EHOMO、分子中氢原子的最高正电荷Q+和非氢原子最高负电荷Q-为自变量,有机化合物的2种毒性作用模式为因变量,建立了有机化合物的极性麻醉和非极性麻醉毒性作用模式的分类模型,模型对190个有机化合物的毒性作用模式全部正确识别,其LOO交互检验识别率达到100%;建立了130个训练样本的模型,对全部190个样本识别也只有2个不正确,都是检验集样本。
(3)以221个酚类有机化合物的MEDV描述子为自变量,化合物的4种毒性作用模式为因变量,建立了化合物的毒性作用模式的分类模型,模型对221个样本的毒性作用模式有13个不能正确识别,LOO交互检验有23个样本不能正确识别,模型对4毒性作用模式识别错误的情况分别为(错误识别样本数/各类总样本数):0/153、3/18、11/27、2/23;建立了155个训练样本的模型,模型对全部221个样本的毒性作用模式有16个不正确识别,训练集和检验集各有8个识别错误。
3.SVM算法在回归计算中应用研究。
(1)以75个对多氯代二苯并二噁英(PCDDs)的MEDV描述子作为自变量,以PCDDs在四种固定相的气相色谱保留行为值为因变量,分别建立了支持向量机回归模型,实验值与模型预测值之间的相关系数R分别为0.9997、0.9975、0.9984、0.9998,标准偏差分别为6.0985、0.0103、0.0090、0.0057。模型的q2分别为0.9975、0.9906、0.9942、0.9936。建立了不同固定相各自训练集的模型,并预测了检验集和预测集;取得了非常好的效果。
(2)以21个卤代脂肪单酯分子的MEDV为自变量,脂肪单酯毒性为因变量,建立了SVM回归模型,实验值与模型预测值之间的相关系数R为0.994,标准偏差为0.0886,模型的q2为0.9235。
(3)以39个卤代脂肪醇和卤代腈等化合物分子的MEDV为自变量,脂肪醇和卤代腈等化合物毒性为因变量,建立了SVM回归模型,实验值与模型预测值之间的相关系数R为0.8364,标准偏差为0.4454,模型的q2为0.5613。