支持向量机在定量结构—活性相关中的应用

来源 :桂林工学院桂林理工大学 | 被引量 : 0次 | 上传用户：owenming521

【摘要】

：

通常采用多元线性回归、偏最小二乘、人工神经网络等方法建立定量结构-性质/活性相关(QSAR/QSPR)模型。这些统计学方法是基于样本趋向于无穷多的基础上发展起来的，然而，由于人

【作者】

：

易忠胜

【机构】

：

桂林理工大学

【出处】

：

桂林工学院桂林理工大学

【发表日期】

：

2004年期

【关键词】

：

支持向量机定量结构多元线性回归偏最小二乘人工神经网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

通常采用多元线性回归、偏最小二乘、人工神经网络等方法建立定量结构-性质/活性相关(QSAR/QSPR)模型。这些统计学方法是基于样本趋向于无穷多的基础上发展起来的，然而，由于人力、财力、物力的不足以及方法学本身的缺陷，致使人们常常不能获得足够多的样本数据，导致所建QSAR模型常常不稳健或可预测能力较差。为此，本文将近年来兴起的、从基于小样本的统计学习理论中诞生的支持向量机(SVM)算法引入QSPR/QSAR中，研究与拓展了SVM分类与回归算法在聚氯乙烯耐有机溶剂性能、部分有机化合物毒性作用模式分类和对多氯代二苯并二噁英的气相色谱保留行为、部分有机化合物毒性回归建模中的应用，结果表明了SVM算法在解决小样本分类与回归问题中的优势。本文主要研究内容及取得的成果如下： 1.支持向量机概述。支持向量机是Vapnik等人在统计学习理论基础上提出的一种确定两类问题最优分类超平面的有效算法。与传统模式识别的降维方法不同，SVM算法是一种升维映射分类，它首先将描述变量构成的输入空间通过不同的核函数进行非线性映射，变换到更高维的特征空间，进而通过最优化各类样本在该高维空间中的分类距离确定最大边界超平面，并确定最优分类超平面，最终通过支持向量解决样本分类问题。由于SVM具有比神经网络更好的泛化推广能力，能消除神经网络的过拟合现象，能对小样本问题构建稳定可预测的统计分类模型，并能拓展到多类分类与回归问题。因而已成为计算智能技术研究及其相关应用领域中新的研究热点。本文从统计学习理论开始概括了SVM算法用于模式识别和回归计算的原理，总结了SVM中用到的优化算法的发展情况，以及SMO(sequentialminimaloptimization)算法的实现策略，SVM软件的使用方法。 2.SVM算法在分类中的应用研究。 (1)以73个有机溶剂和水分子的溶解度参数分量为自变量，非晶态聚氯乙烯在有机溶剂中的耐蚀性能为因变量，建立了SVM分类模型，模型对全部样本只有4个识别错误；其LOO(Leave-One-Out)交互检验只有6个样本识别错误；建立了40个训练样本的模型，对全部样本识别也只有6个不正确，其中训练集5个，检验集1个。 (2)以选定的醇、酮、醚、链烃、胺等190个有机化合物的辛醇/水分配系数Log(Kow)、最低未占有轨道能ELUMO、最高占有轨道能EHOMO、分子中氢原子的最高正电荷Q+和非氢原子最高负电荷Q-为自变量，有机化合物的2种毒性作用模式为因变量，建立了有机化合物的极性麻醉和非极性麻醉毒性作用模式的分类模型，模型对190个有机化合物的毒性作用模式全部正确识别，其LOO交互检验识别率达到100％；建立了130个训练样本的模型，对全部190个样本识别也只有2个不正确，都是检验集样本。 (3)以221个酚类有机化合物的MEDV描述子为自变量，化合物的4种毒性作用模式为因变量，建立了化合物的毒性作用模式的分类模型，模型对221个样本的毒性作用模式有13个不能正确识别，LOO交互检验有23个样本不能正确识别，模型对4毒性作用模式识别错误的情况分别为(错误识别样本数/各类总样本数)：0/153、3/18、11/27、2/23；建立了155个训练样本的模型，模型对全部221个样本的毒性作用模式有16个不正确识别，训练集和检验集各有8个识别错误。 3.SVM算法在回归计算中应用研究。 (1)以75个对多氯代二苯并二噁英(PCDDs)的MEDV描述子作为自变量，以PCDDs在四种固定相的气相色谱保留行为值为因变量，分别建立了支持向量机回归模型，实验值与模型预测值之间的相关系数R分别为0.9997、0.9975、0.9984、0.9998，标准偏差分别为6.0985、0.0103、0.0090、0.0057。模型的q2分别为0.9975、0.9906、0.9942、0.9936。建立了不同固定相各自训练集的模型，并预测了检验集和预测集；取得了非常好的效果。 (2)以21个卤代脂肪单酯分子的MEDV为自变量，脂肪单酯毒性为因变量，建立了SVM回归模型，实验值与模型预测值之间的相关系数R为0.994，标准偏差为0.0886，模型的q2为0.9235。 (3)以39个卤代脂肪醇和卤代腈等化合物分子的MEDV为自变量，脂肪醇和卤代腈等化合物毒性为因变量，建立了SVM回归模型，实验值与模型预测值之间的相关系数R为0.8364，标准偏差为0.4454，模型的q2为0.5613。

其他文献

罗马假日·无目的行走

条条大路通罗马,不仅仅是说去罗马的路上吧,也许还有到了罗马以后的走走停停.rn到了一地,知道和不知道它是什么地方,对感受的影响会很大吗?rn有时候与其说按图索骥,知其所以

期刊

和谐鼎盛

请下载后查看，本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.

期刊

徽居如画

请下载后查看，本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.

期刊

学习“三个代表”重要思想应注意的几个问题

江泽民同志关于“三个代表”的重要思想提出后,全党认真学习,努力实践,创造性地与各项实际工作结合起来,使“三个代表”的重要思想转化成了强大的物质力量。但不可忽视的是,

期刊

思想过程物质力量人民群众思想转化先锋模范作用阶级基础内在逻辑联系理论体系党员干部主人翁地位

春风十里不如你好客山东欢迎您

请下载后查看，本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.

期刊

超氧化物歧化酶模型化合物的设计、合成、表征和构效关系研究

　　本论文较全面地综述了SOD的种类、作用和发展史，较系统地研究了天然Cu,Zn-SOD、Mn-SOD、Fe-SOD活性配位中心的晶体结构和电子结构，依据SOD酶进化上的高度保守性，对SOD家族中

学位

超氧化物歧化酶催化机理量化计算模型化合物晶体结构生物活性

从罗汉题材的木雕谈中国雕塑艺术特点

中国雕塑作为造型艺术的门类之一,不管是在题材内容的选取,还是在艺术风格的表现形式,或是在雕塑技法的运用,甚至是在材质上的使用都具有浓厚的民族特色和鲜明的时代特色。罗

期刊

长眉罗汉意象性艺术风格文化艺术面部表情学佛轮廓线五百罗汉生动传神以形写神

从网络学习的新变化看网络传播对资源共享模式的影响

随着信息高速公路的发展,网络信息传播和资源共享已经成为社会可持续发展的重要组成部分。网络传播带来的社会各个领域的变革正在不断深化,这其中包括知识教育领域的变革。本

期刊

资源共享模式网络信息传播网络学习传播特点传播主体实体资源网络资源媒体化媒体时代远程教育平台

20（S）-喜树碱类药物的不对称全合成研究

自1966年Wall等人首次从天然喜树中分离得到以来,20(S)-喜树碱类药物由于其特有的拓扑异构酶I机理,因此能够有效地抑制DNA的复制和转录,并在临床上表现出很高的抗肿瘤活性,引

学位

20(S)-喜树碱N-取代苯磺酰基-(R)-脯氨酸Friedlander缩合Arbucov重排不对称溴代内酯化不对称乙基化

针对大气纳米颗粒以及其他纳米材料性能的研究

学位

支持向量机在定量结构—活性相关中的应用

与本文相关的学术论文