基于分子特征表征下的致癌性预测模型

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:xxxxx20090818
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于技术的发展,新化合物的合成速度加快,每年诞生的化合物数以万计,传统的评价方法不可能高效的对所有化合物进行评估。并且近年来患癌人数急剧上升,目前仍不清楚大多数的癌症是暴露于何种致癌化合物而导致。世界卫生组织国际癌症机构致癌清单中仅有429种物质被归为具有致癌性物质,但仍存在多种化合物未进行判定。传统的化合物致癌性评估主要通过实验测试进行,试验周期长且成本昂贵,不确定因素过多,因此迫切的需要开发替代方法和工具来评估化合物的致癌性。本文的研究目的是尝试基于分子的不同特征表征构建不同的致癌性分类模型,实现对化合物致癌性的预测。首先,本文从两个权威机构中收集了致癌性和非致癌性数据作为数据集,将数据处理成SMILES和CID两种形式,根据这两种形式提取化合物的不同特征来构建两种以分子和原子为最小单位的致癌性物化特征。其次,根据不同特征表征构建不同模型,分子描述符和分子指纹分别提取了有关分子不同维度特征作为输入,并以致癌性和非致癌性作为标签,基于八种分类算法构建了空间映射模型,根据三种评判标准(精准率、召回率和Auc值),比较了分类模型的性能,验证了实验的可行性。然后,以分子图结构作为输入,分子图结构提取原子特征并进行相关性的特征选择,以19种原子特征作为致癌性特征构建图卷积Carcino-GCN模型,以不同的聚合机制影响最后的输出结果。但是,考虑到分子结构具有三维性,只基于二维图结构作为输入不具有代表性,随后引入了具有空间表征意义的相对位置矩阵构建空间图卷积Carcino-SGCN模型,同样引入了不同的聚合机制,不同的聚合一定程度上影响着特征聚合。最后,通过分析对比基于不同特征表征的分类模型,得到的结论是以三维分子图形式作为输入,构建的空间图卷积网络在所有的模型中性能最好,分类精准率最高达0.954。由此印证了以分子图结构作为输入,构建的空间图卷积神经网络在致癌性预测上的可行性,为分子的致癌性预测提供了另一种有效可行的方案。
其他文献
场景流表示动态场景中每个点的三维运动,其作为理解三维环境变化的基本特征,广泛应用于自动驾驶、运动分割和动作识别等领域。随着激光雷达技术的发展,点云成为三维数据的基本形式,直接从点云数据中估计三维运动逐渐成为研究热点。以往的点云运动估计任务主要面向自动驾驶场景,本文将其拓展到人脸运动估计应用,估计由表情变化引起的脸部运动,可以客观描述人脸表情,相较于传统二维人脸视频,运动信息更加准确,且不受拍摄角度
学位
随着非线性系统结构的日益复杂,控制系统将存在着各种非线性与不确定性因素。另一方面,引入系统的执行器也存在着各种各样的非线性约束,这不仅会使得整个控制系统的控制精度受到严重影响,对非线性系统的控制设计来说也带来巨大困难。比如精密控制中的压电位移台,除了其具有高精度、高响应等特点外,内部存在的磁滞非线性使得输出与控制输入之间呈非线性,对于许多不具备磁滞补偿能力的非线性系统来说磁滞非线性是不容忽视的,更
学位
中文成语多从中国古代寓言、历史故事、神话传说或者口语流传而形成,由于其表达形象且精炼的优点而常被人们应用于日常语言表达中。一般来说,成语通常由四个文字按照中国古汉语的语法组合而成。因此,短短四字成语所蕴含的语义往往比数十或数百个字的段落句子更加丰富,其表达的语义不能直接运用现代汉语来解释。目前自然语言处理领域对于中文成语的研究还处于初步阶段,主要有成语机器阅读理解和成语推荐等研究。而对于中文成语语
学位
<正>知行合一,这是思想政治理论课追求的终极目标。探究“知行合一”在高职思政课教改中具体应用,旨在进一步改革创新,挖掘思政理论精髓,拓展思政课堂视野,培养大学生对思政理论认同,以理论知识引导大学生行为实践,以科学引导方式来培养大学生理性认知。一、研究的意义为了实现思政课大提升、大格局,进一步开拓思政课教学视野、创新课堂形式,做到理论联系实际,帮助学生立大志、明大德、成大才、担大任。具体来讲,具有以
期刊
应《国家中长期科学和技术发展规划纲要(2006-2020年)》,服务机器人目前正处于快速上升阶段,而机器人的感知赋能因此逐渐成为一个研究热点。当前的服务机器人若要完成最基本的功能,主要的感知需求在于视觉算法的应用。针对家庭场景下的服务机器人,本论文基于深度学习网络设计了一个包含多个视觉任务,可应用在服务机器人上的视觉系统,并且以中国机器人大赛-助老服务机器人赛项作为落地场景,进行相应的介绍以及功能
学位
近年来,国内的在线医疗社区愈来愈活跃,一方面是因为传统门诊存在医疗资源分配不均匀造成拥挤的问题以及病患存在距离和时间上的限制,另一方面是因为新冠疫情下网上问诊既能缓解医院线下接诊的压力、向患者提供专业的医疗服务,还可以减少新冠病毒的交叉感染。但现有的医疗问答更多是以人工回答的方式,因此开发一个自动医疗问答系统能够有效地减少医生的工作量和缓解医疗资源的不平衡。而答案选择作为问答系统的关键组成部分之一
学位
随着人工智能的兴起,大数据时代的来临,有线通信的数据传输速率越来越高,其数据率更是达到了每十年翻两倍的增长率。随着数据传输速率的增长,同轴电缆在高速传输过程中出现了高损耗、大体积和高功耗等缺点。与金属相比,光纤具有较低的损耗和较小的体积,因此光纤通信有很大可能成为解决高速通信瓶颈的重要方式。光通信系统主要包括电光发射机和光电接收机两部分。其中光电接收机由光电二极管,跨阻放大器,限幅放大器,时钟数据
学位
正样本未标记样本学习(PU learning)是研究在模型的训练阶段只通过正样本和未标记样本来训练二元分类器的问题。最近,PU学习已经在许多领域得到了广泛的研究和应用,但是目前现有的研究大多数都是利用单个域的知识来构建分类器进行预测,由于PU学习场景下样本数量较少,模型难以取得较好性能。此外,PU学习属于半监督学习问题,无法在训练阶段计算模型的分类误差,所以现有的PU学习方法都未能使用boosti
学位
随着我国城市化进程的加快,市政工程项目日益复杂,对基础结构的处理与施工提出了更高的要求。深基坑施工是市政工程中的一个重要环节,它要求在施工中采用适当的技术措施,重视施工要点,使其充分发挥支护效果。施工单位要根据施工环境、地势条件,采取适当的施工技术,确保工程施工的质量。
期刊
周期特性广泛存在于工程应用中,如天体力学,卫星姿态控制,弹性力系统、电力系统等。从19世纪开始,Floquet等各国知名学者就周期系统理论问题展开了研究,并尝试解决周期系统的控制问题,但由于其本身复杂的特性以及数值计算等问题导致其控制问题难以研究。近年来,周期分段线性系统作为一类特殊的具有混杂特性与周期特性的系统,被认为是对周期时变系统最有效的近似手段,因此受到了众多学者的关注。周期分段线性系统由
学位