有机化合物水生毒性多分类集成模型

来源 :辽宁大学 | 被引量 : 0次 | 上传用户:wsx19810518
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着环境污染越来越严重,有机化合物成为环境污染的主要危害,尤其是随着工业污水、生活废水、运输泄漏等方式排放到水体中的有机化合物对水生生物造成了极大的负面影响。然而有机化合物急性毒性的研究领域,传统生物实验方法时间长、费用高、方法复杂,计算机辅助构建的二元分类模型虽可对毒性进行划分,但无法准确对毒性进一步划分。多元分类模型不仅可以快速准确地对有机化合物水生生物急性毒性进行,还可以进一步的按照各个国家和组织的有机化合物危害划分标准进行有效预测。本研究以黑头呆鱼(Pimephales promelas)作为试验对象,使用来自于ECOTOX数据集和EAT5数据集的373种有机化合物,首先采取7种机器学习算法结合8种分子指纹构建了一系列基分类器筛选出5种机器学习算法,接着使用这5种机器学习算法和8种分子指纹进一步构建基分类器,最终通过投票法有机化合物对水生生物急性毒性多元分类投票集成模型(The voting ensemble model,VEM)。经过重复100次5折交叉验证和外部验证后,最优基分类器Extend FP-C5.0性能为准确性87.30%、敏感性87.32%、特异性95.76%,集成模型性能为准确性96.92%、敏感性96.93%、特异性98.97%。最后,使用极限梯度提升算法和Shapley Value进行特征重要性分析,确定了一些具有代表性的表征生态毒性的结构特征。本研究对于有机化合物水生生物急性毒性作用机制的研究与预测具有一定的理论和现实价值,为有机化合物环境风险评估提供了高效、快速的工具。
其他文献
申克孢子丝菌复合体(Sporothrix schenckii complex)广泛分布于世界各地,目前发现该复合体包含七种基因型,分别是狭义申克孢子丝菌(S.schenckii sensu stricto)、球形孢子丝菌(S.globosa)、巴西孢子丝菌(S.brasiliensis)、墨西哥孢子丝菌(S.mexicana)、白孢子丝菌(S.pallida)、卢艾里孢子丝菌(S.luriei)、
学位
在华夏五千年文明的孕育下,纸张是中华民族精神文明的重要载体,更是炎黄子孙智慧的结晶。纸质档案以纸张作为载体的一种档案,最先产生在中国,东汉时就已经应用在文件撰写方面,直到如今我们仍然使用纸质档案,其优点较多,便于管理和利用。保护纸质档案是防止文明缺失的一种重要手段,委以吾辈重任。“生物退化”指由于生物的活动导致非生命物质的性质发生不利于人类需求的变化,即非生命物质的内在价值受到削弱。然而纸质档案受
学位
机器人技术在近些年来得到了不断的发展,在日常生活中的许多场景下已经存在机器人来替代人进行工作。导航和避障能力是智能化的移动机器人最重要的基本能力之一,在近年已经有研究出现,并开始在行人丰富的复杂环境探索。传统的机器人导航主要是用了SLAM技术以及控制规划方法。SLAM技术通过构建环境的地图,为机器人提供全局信息,在地图基础上调用规划方法生成机器人移动路径。这种方法对传感器精度以及构建地图的精度要求
学位
肺癌是具有高死亡率的恶性肿瘤之一,虽然目前人们对肺癌发生机制的了解和抗癌药物的开发有新的进展,但临床治疗效果仍不能令人满意。因此,有效抗肺癌药物的发现已经成为研究者所关心的热点。本课题选用的化合物RY-1-11是一种新型喜树碱衍生物,并且实验室前期研究结果显示RY-1-11通过影响Wnt/β-catenin信号通路显著抑制肺癌细胞的增殖和迁移,具有很好的抗肿瘤活性。同时,前期研究表明RY-1-11
学位
目的:代谢相关脂肪性肝病(Metabolic associated fatty liver disease,MAFLD)也称为非酒精性脂肪性肝病(Nonalcoholic fatty liver disease,NAFLD),是全球发病率最高的慢性肝病,全世界大约有四分之一的人深受该病困扰。MAFLD的预防和治疗主要依赖于饮食控制和运动干预,目前亟需开发新的和有效的治疗药物。AWRK6是基于东北林
学位
学位
淀粉样蛋白沉积疾病是由特定多肽或蛋白质聚集形成高度稳定的、具有细胞毒性的淀粉样蛋白纤维化沉淀所引起的。淀粉样肽β(Amyloidβ,Aβ)被认为是引起阿尔茨海默病(Alzheimer’s disease,AD)的致病蛋白。人胱抑素C(Human cystatin C,HCC)是一种广泛存在于人体的体液和组织液中的半胱氨酸蛋白酶抑制剂,可以抑制细胞外半胱氨酸蛋白酶活性。HCC可与可溶性的Aβ结合,研
学位
随着信息化技术的发展,在线课堂教育开始在信息化应用中崭露头角,但是在线教学中,学生课堂状态不佳和大规模翘课的现象已经对在线教学的发展产生阻碍,因此人们开始更加关注如何改善这种学生翘课的现象。但是,在线教学的相关任务的研究中,公开可使用的数据集和在公开数据集上进行的工作较少,数据集的问题阻碍着在线教育相关任务研究的发展。为了解决上述问题,我们构建了一个新的数据集,并提出了一种新的学生完课预测方法,通
学位
数字化浪潮推动互联网行业飞速发展,开发人员数量的增长速度远低于软件需求的增长速度。因此,研究人员和工业界将目光聚焦智能化编程,希望通过低代码的智能化编程极大地提高软件开发速度、效率和质量。现有的代码生成研究有两个重要的方法:模型驱动的代码生成方法和深度神经网络的代码生成方法。然而,前者需要复杂细致的建模才能得到功能上复杂的代码;后者难以生成结构性复杂的代码,这些问题限制着代码生成的发展。针对上述问
学位
随着开源的软件越来越多,在项目开发过程,为了提高开发效率以及程序性能,不可避免的需要引用开源的库和开源的代码块。对于只能获取二进制的项目,通过二进制代码相似性分析来判断项目中是否使用了库中的代码,前人已经提出了一些解决方案,但这些方案要么只能针对单架构的二进制代码进行相似性分析,要么通过特征进行跨平台的函数进行分析,并不能获得不同架构函数真正的语义表示。本文提出了一个基于对比学习的方案来解决该问题
学位