使用机器学习方法基于分子结构预测潜在的环境内分泌干扰物

来源 :南京大学 | 被引量 : 0次 | 上传用户:cdl872
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在环境化学中,定量结构-活性相关方法(QSAR)对于有机化合物的生态风险性评价、污染控制和预防等具有十分重要的意义。QSAR目前已经成为鉴定潜在环境内分泌干扰物的有效工具。本篇论文主要聚焦于目前在计算机领域流行的机器学习方法和它们在建立环境内分泌干扰物QSAR预测模型中的应用。传统的Hansch QSAR模型主要应用于结构差异性较小的同类化合物,将其用于结构复杂、作用机制复杂的内分泌干扰物有一定的局限性.而机器学习方法,则可以克服这一缺点。机器学习是研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,是继专家系统之后人工智能应用的又一重要研究领域,也是人工智能和神经计算的核心研究课题之一。本文中第一部分使用机器学习方法所建立的定量模型被用来预测连续范围的值,而第二部分所建的判类模型把化合物分成两类,进行定性预测。   在本论文的第二章,我们使用了一种重要的无约束最优化方法--共轭梯度法(CG)来改进目前应用最广泛的BP人工神经网络,用于环境雌激素的QSAR研究。这种两阶段训练法,可以充分利用两种算法的优点,彼此取长补短,有效地克服了单纯使用BP网络所存在的网络训练易于过度、收敛速度慢、预测结果不稳定、易陷入局部极小的问题。得到了稳健、准确的预测模型,模型的R2=0.845,预测集的q2pred=0.81,均方根误差(RMSE)=0.688。所得结果说明这种方法能够为筛选有机物的雌激素活性提供一种迅速、可行的工具。   我们在文章第三章使用一种新型的径向基神经网络-广义回归神经网络基于131个结构多样性的雌激素化合物建立QSAR预测模型。从化合物的分子结构计算所得,并且经过客观和主观变量选择后的9个分子描述符作为广义回归神经网络的输入值。广义回归神经网络在选取输入神经元数目之后,网络的结构和连接权值也随之确定,仅需确定一个平滑参数值。通过样本外数据集预测能力与鲁棒性对所建模型进行验证,可以发现模型在预测能力上不逊色于目前所使用的传统方法,并且推广性能强,人为调节参数少,收敛速度快,更为智能化。与BP网络相比,其算法易于实现、结构简单、便于编程。因此,广义回归神经网络可作为内分泌干扰物QSAR研究的有效手段,可以适应在实际应用中满足高通量筛选的需要。   我们在文章第四章使用了两种新颖的机器学习方法-概率神经网络和支持向量机,应用于建立判类模型来预测化合物是否具有雌激素活性。从化合物的分子结构计算得到的四个分子描述符被用来作为概率神经网络和支持向量机模型的输入值,这些分子描述符的重要性程度由接受者操作特性曲线进行分级,并且可以揭示出化合物分子与雌激素受体之间的作用机制。为了进行客观的评估,所建立的模型使用5个样本外数据集进行预测能力的验证。通过与文献的比较,我们所使用的两种方法所建模型都能取得另人满意的预测结果,并且概率神经网络操作更简单,所建模型的预测效果也更好。当概率神经网络对Yeast assays数据集进行预测时,所得预测结果的假阴率为零,假阴率是生态风险评估中的重要参数,本文所取得的结果将会为实际应用的毒理学评估提供相对可信的清单。最后,在本文和文献中均被错误预测的化合物被归纳总结,在训练集和预测集中被预测为假阴的物质都被仔细分析,这些工作将会在实际应用中辅助QSAR模型对雌激素的预测,并且有效地降低假阴错误率。   在文章的第五章,除了在上章节中介绍过的概率神经网络和支持向量机外,学习向量量化方法也被引入,这三种方法基于11个分子描述符,所建立的判类模型被用来判别化合物的雄激素活性。其中,概率神经网络模型取得最精确的预测结果,其针对样本外预测集的预测准确率达到86.67%,但学习向量量化模型给出了0.00%的假阴率。另外,综合了三种基本模型的共识性模型也被建立。与基本的独立模型相比,共识性模型预测准确率达到86.67%,而假阴率为0.00%。所得结果说明所建立的判类模型能够为迅速筛选潜在的雄激素提供一种可行的工具。
其他文献
采用钨极氩气保护电弧(氩弧)熔覆工艺分别在Q235钢和20号钢基体上制备了F102Fe及204Co系合金涂层。F102Fe合金成分为:16Cr+15Fe+0.6C+4.5S+4B+余Ni;204Co系合金包括:204Co(21Cr+
期刊
矿物表/界面作用是元素地球化学循环的重要环节,而矿物表面微结构及其性质是矿物表/界面作用的关键制约因素。已有研究成果表明,矿物表面微结构和表面性质不仅对矿物自身的溶解
本文使用两种结构相似的POSS单体在双酚A二缩水甘油醚(DGEBA)和4,4’-二氨基二苯基甲烷(DDM)存在下通过原位聚合的方法制备了含笼状硅氧烷(POSS)的环氧树脂有机/无机纳米复合材料
随着能源和环境问题的日益突出,可持续发展的高性能能量存储和转换装置的开发和利用显得尤为重要。在众多的能量存储装置中,锂离子电池(LIB)由于其能量密度较高、循环寿命较长等特点而被广泛应用于各种便携式设备中。近几年,锂离子电池的使用范围越来越广,包括电动汽车(EV)、混合动力汽车(HEV)、智能电网储能等领域的应用,其中高性能、低成本正极材料的开发是LIB在这些领域得以进一步发展的关键。对于目前已经
颈椎痛、肩周炎、腰突、坐骨神经痛、乳腺增生、痤疮等各种疼痛大医院专家确实治不好,怎么办?秘验奇珍堂有绝招:10年来,我们一直这么做!未来,我们将做的更好!不吹嘘,不夸张,
阅读在初中语文教学中占据着非常重要的位置,且阅读一直都是教学中的难点.学生阅读能力一直得不到有效的提升,主要还是因为教师的教学方法存在一定问题,使学生对于阅读提不起
Ti3SiC2是一种新型的结构陶瓷材料,由于其兼具了金属和陶瓷材料的诸多优异性能而成为材料研究人员的研究的焦点。然而,在常温下由于其硬度低以及较低的抗蠕变强度仍然是其实用
随着我国与世界各个国家的贸易往来越来越频繁,国家对于商务英语的人才需求在不断提升,因此越来越多的中职院校开设了商务英语专业课程.在对于专业人才素质要求越来越高的时
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊