论文部分内容阅读
随着重工业以及水产养殖业的不断发展,大量的有机污染物进入到水环境中,对人类的健康以及水生系统造成了严重的危害。目前,机器学习方法可以有效地处理数据以及建立优质的模型。集成学习基于多个基分类器建立而成,它通常比任何单个模型的性能具有更好的预测能力。因此,本研究基于文献搜集筛选的实验数据,利用机器学习以及集成学习方法,对有机化合物的生物富集因子以及水生生物的急性毒性两个指标进行预测,进而分析有机化合物对水生生物的毒性机理。在评估有机污染物对水生生态系统造成的风险方面,生物富集因子和半数致死浓度(LC50s)是十分关键的参数。目前,已经开发了多种定量结构-活性关系(quantitative structure-activity relationships,QSAR)模型来预测生物富集因子以及对水生生物的急性毒性进行分类。在建立生物富集因子预测模型中,本文使用递归特征消除方法分别结合支持向量机和多元线性回归算法开发了回归模型。在回归模型中,本文从包含500种不同化合物的数据集中计算出2D分子描述符。在急性毒性的分类预测中,本文使用三种机器学习算法构建了三个集合模型,并且在分类模型中从包含400种不同化学物质的数据集中计算12种分子指纹。在回归模型中,RFE-SVM模型呈现了更好的预测能力,R2和??分别为0.860和0.757,通过其他指标也可以表明本研究的回归模型可以做出良好的预测,并且符合Golbraikh,Tropsha和Roy设定的标准,对新型化合物进行有效地预测。在分类模型中,ensemble-SVM分类模型在五折交叉验证中的总体准确率、敏感性、特异性以及AUC(受试者工作特征曲线下面积)分别为92.2%、95.1%、86.0%和0.965,在外部验证中分别是87.3%、92.6%、76.0%和0.940。本研究的ensemble-SVM模型比以前报道的模型更加稳定,并且能够给出更加准确的预测。因此,该模型能够有效地预测水生生物的急性毒性以及为对水生生态系统的风险评价做出贡献。此外,通过分析两种模型,本研究鉴定了一些与生物富集因子和急性毒性相关联的化学结构,特别是结构aaCH,芳香结构,氢键基团和水分配系数,在今后的水生毒理学实验和水生生态系统的风险评估中应当被更加关注。综上所述,本文具有以下创新性的工作:(1)建立了针对水生急性毒性的集成分类模型,获得了更优的性能参数;(2)将生物富集因子与急性毒性两类关键参数结合分析有机化合物对水生系统的风险评价。