基于机器学习的分子性质预测研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:jinmeng79
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分子属性预测是一项基础而重要的工作,受到跨领域的研究者的广泛关注;并在包括药物设计,材料发现,食品开发等多个领域有着广泛的应用。然而,传统的基于密度泛函理论的方法因为其极高的计算消耗,而无法被应用到大数据集上去。此外,也是由于这种较高的计算代价,使得已有数据集中,带标签数据较少,而无标签数据较多。本文首先提出了一种具有泛化性的多层级图卷积神经网络用于分子属性预测。特别的,该模型将每个分子表示为一个图以保存其内部结构。此外,这个精心设计的神经网络能够依照分子内多层级相互作用逐层提取分子的构成和空间表征。因此,就可以利用这种多层级表征来进行属性预测。实验证明本文提出的方法能够在多个数据集上取得最好的预测精度,并在迁移性和泛化性上显著优于其他方法。接着,为了解决分子属性预测中带标签数据不够的问题,本文提出了一个新颖的主动半监督图神经网络框架,它能够有效融合带标签数据和无标签数据。该框架可以看作是一个教师-学生框架,其中教师模型和学生模型交替运行并通过权重迁移进行训练加速。此外,该框架还提出了一个基于主动学习的策略来提高标签效率。本文在不同的实验设置下进行了周密的实验,实验结果表现出模型出色的性能和可解释性。最后,为了展示机器学习在分子属性预测问题中的能力,基于提出的模型,以有机半导体材料的光电属性为例,构建了一套从数据生成,模型训练,属性预测以及最终应用到光谱吸收预测上的工作系统。大量实验表明,这套系统可以取得能够媲美密度泛函分析的精度。此外,通过该模型对二氯甲烷中UV-Vis的吸收光谱进行建模,实验结果表明,模型生成的计算光谱和实际光谱之间取得了良好的一致性。
其他文献
环境污染与资源能耗不堪重负是目前制约我国国民经济发展的主要瓶颈,而污染排放与系统综合能效的协同耦合作用机理及其协同评价方法是突破我国环境污染与资源能耗不堪重负瓶
随着电子商务网站规模不断扩大,信息过载问题日趋严重,解决此问题的一个非常有潜力的方法便是个性化推荐系统。但用户和商品数量的激增给传统的电商推荐系统带来了数据稀疏性
科技支撑是推进社会治理体系和治理能力现代化的重要保障。全国创新社会治理典型案例的经验表明,即时通信技术、应用软件技术、物联网技术和智慧治理整体方案,正成为现代科技
电致化学发光(ECL)是指结合了电化学与化学发光的一种分析检测技术,它不仅具有电化学与发光分析技术的优点,而且具有灵敏度高,操作简便,选择性好和重现性高等优点。通常,ECL的
表面增强拉曼光谱技术(SERS)近年来广泛地应用在对物质的材料和结构的表征、对艺术品及文物的分析,以及对小分子、蛋白质、DNA等物质的分析检测。这是因为该技术具有很多优点
乳腺癌已成为当今社会的主要公共卫生问题,也是威胁妇女身心健康的常见癌症之一,早期发现和治疗乳腺癌是提高疗效并帮助患者康复的关键。乳腺x线摄影技术由于其较为清晰的图像,准确的定位以及对人体相对较小的损伤而成为最传统的乳房图像检测方法。乳腺肿瘤的x线可表现为肿块、钙化、结构变形等,其中肿块是x线摄影中最常见的乳腺癌迹象。因此,基于这些乳腺癌迹象,对乳腺x线病理图像的准确分类是医生确定诊断和治疗方案的重
在传统能源日渐枯竭的今天,必须积极寻找绿色新能源。而聚变能是最有前景的绿色能源之一。聚变燃料在托卡马克中以等离子体的状态存在,托卡马克装置放电时等离子体MHD不稳定
随着工业化控制技术的需求和控制理论的不断进步,非线性系统的研究得到了更多地关注。由于在实际的工业过程中应用了较多的非线性模型,因此对非线性系统辨识的研究具有重要的
将Shack-Hartmann波前探测技术应用在扩展干涉仪的波前探测中,可以弥补现有干涉仪技术在特定情况下不能同时满足动态范围大、灵敏度高需求的不足。ShackHartmann波前传感器作
飞行器雷电抑制器测试仪是为各类飞行器的雷电抑制器所研发的性能检测装置。根据各类雷电抑制器中不同性能的功能元件,如气体放电管,压敏电阻,TVS(Transient Voltage Suppres