蛋白质三级结构嵌入编码及其在蛋白质工程中的应用研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:cznay
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质工程在医疗、食品、化工和能源等多个领域有重要应用,并具有加速合成生物学、医学和纳米技术发展的潜力。在传统蛋白质工程方法中,定向进化需要进行大量的随机突变和筛选,致使效率较低;理性设计则由于对蛋白质序列、结构与功能内在关联的理解不足,存在准确率低等瓶颈问题。随着蛋白质数据库规模的指数倍增长,其中已蕴含蛋白质数十亿年的进化信息,但数据库中大多数蛋白质并没有对应的标签和注释信息。目前,人工智能技术的发展为认识蛋白质序列、结构和功能之间的内在关联提供了新的技术框架,基于人工智能的蛋白质工程将引领生命科学领域的新一轮革命。自监督学习作为一种能够从无标签数据中学习语义信息的人工智能技术,近年来已被用于从大量无标签蛋白质序列中学习包含其生物特性的嵌入编码,该编码能够在蛋白质工程任务中节省两个数量级的成本。蛋白质的功能特性主要由其三级结构决定,而目前尚未有基于自监督学习对大量无标签蛋白质三级结构进行嵌入编码的相关研究。因此,本研究旨在搭建“编码器-解码器”架构的神经网络语言模型,对蛋白质三级结构进行嵌入编码。模型训练过程分为以下三个步骤:1)将蛋白质三级结构中的每个残基由其空间近邻残基的相关特征进行表示,并以此作为模型输入;2)在编码器中,通过双向长短期记忆网络提取蛋白质序列的上下文信息;3)在解码器中,通过每个残基的上下文信息来预测该残基的类型,从而以自监督学习的方式实现蛋白质三级结构嵌入编码(Pts Rep)。Pts Rep在蛋白质结构分类任务中的聚类表现相较于其原始输入提升9.2倍,证明其能够捕获蛋白质结构中蕴含的深层生物语义信息。为了进一步评估PtsRep的应用性能,本研究将其应用于蛋白质稳定性预测和av GFP荧光亮度预测两个蛋白质工程任务。实验结果表明,Pts Rep优于该领域领先的TAPEBERT和Uni Rep两种基准嵌入编码,且仅使用TAPE-BERT模型0.12%的训练数据量和2.7%的网络参数量。在蛋白质稳定性预测任务中,使用相同数据集的前提下,Pts Rep相较于此前最佳模型在斯皮尔曼相关系数上提高27.4%。在av GFP荧光亮度预测任务中,仿真实验结果表明Pts Rep仅需测试28条突变序列即可从25,517个av GFP突变体中识别荧光值最高的突变体,相较于此前最佳模型降低60%的测试预算。基于上述研究工作,本研究进一步将Pts Rep、TAPE-BERT和Uni Rep三种模型加权集成,集成模型在识别av GFP最亮突变体任务中相较于其最佳子模型降低25%的测试预算。此外,本研究基于集成模型开发用以预测av GFP突变体荧光亮度的Web应用程序。综上所述,本研究基于自监督学习实现了蛋白质三级结构嵌入编码,该编码在蛋白质工程任务中的表现优于此前方法,并通过集成多个嵌入编码模型进一步提升模型识别目标突变体的能力。本研究为探索蛋白质工程中突变体和功能之间的关联提供了新途径,并为其他蛋白质相关研究领域提供了新视角。
其他文献
本文的研究对象“林寨古村”是第一批中国传统村落,位于粤北地区河源市和平县。地处位于县境东南、东江支流浰江下游的椭圆形盆地中,三面环山,南临浰江。“林寨古村”是一个被创造出来的称谓,实际上由兴井与石镇两个村组成,包括了历兴围、厦镇围和其间四角楼建筑群,是元末迁来的陈氏宗族所聚居的单姓聚落。在对客家传统聚落和民居建筑的研究中,林寨所处的和平县较多被归入东江流域客家文化亚区中,但深入的专门讨论较为缺乏,
从上世纪高新区启动建设至今,已经历三十余年的发展,持续推动着我国高新技术发展和全球知识经济崛起,中国大力推动创新驱动发展战略,高新区作为承载创新活动的载体、推动产业发展的重要平台,需引领地方、甚至区域创新能力提升。秉持合作共享、协调发展的理念,高新区之间、城市之间展开了平台共建的合作,在实现高新区内部创新模式转型的同时改进载体的供给模式,以适应企业发展、创业环境、人才需求的变化。本文通过文献解读、
近十年来,深度学习在各个应用领域(例如图像分类,语音识别,自然语言处理等)都取得了不错的效果,其主要依赖于神经网络架构的精妙设计。当前采用的网络架构大部分均由人类专家手动设计开发,过程耗时且易出错。因此,神经架构搜索(Neural architecture search,NAS)技术应运而生。与传统的自动化机器学习技术相比,神经架构搜索不再局限于深度学习中学习率等超参数的优化,而是将搜索范围扩展至
头脑风暴优化(Brain Storm Optimization,BSO)算法在进化计算领域中受到越来越多的关注。其操作简单、易于实现,已在电力系统、航空设计、移动机器人路径规划、财务优化等众多现实场景中得到了应用。相比头脑风暴优化算法丰硕的应用成果,其时间复杂度分析的研究成果却较为匮乏。本文针对头脑风暴优化算法的时间复杂度分析与估算方法展开了研究,并结合提出的时间复杂度估算方法的思想,设计了一个头
溶解性有机质(DOM)是自然环境中广泛分布且极具活性的组分,参与了众多生物地球化学过程,主要包括吸附解吸、氧化还原、沉淀溶解以及微生物的新陈代谢等。水铁矿是土壤和沉积物中常见的具有巨大比表面积和发达孔隙结构的铁氧化物。DOM在水铁矿上的吸附分馏是常见的地球化学过程之一,影响着DOM的化学组成和性质。磷酸根(PO43-)是自然环境中一种常见的含氧阴离子,可以与DOM竞争水铁矿表面的羟基位点,从而影响
无人艇作为一种新型海上无人作业平台在广阔海洋中具有巨大的应用价值,以无人艇协助工作人员进行海上无人化作业是未来发展趋势。而目标检测跟踪与实时航行规划技术是无人艇的关键技术之一,其不仅能检测识别障碍物和预测出下一步轨迹完成目标跟踪,还可以根据跟踪预测数据自主推理,重规划当前航行路径,提高无人艇避障能力。但复杂海洋环境下无人艇自主航行时会面临各种不确定性考验,传统无人艇自身计算存储资源可能难以满足其计
基于性能的抗震设计方法的可靠性取决于抗震性能指标的准确性和结构弹塑性分析的精确性。目前,型钢混凝土(SRC)梁柱构件的弹塑性分析精度仍有待提高,工程应用的有限元分析模型与真实构件的抗震性能有较大差异,特别是对于小剪跨比的剪切破坏构件。为了提高SRC梁柱构件的弹塑性分析精度,本文对SRC梁柱试验数据进行收集,基于随机森林算法建立SRC梁柱纤维单元参数预测模型(PMFEP-SRC),对SRC梁柱纤维单
近年来,机器学习和信息融合的飞速发展使得计算机被赋予情绪理解、识别和分析的能力成为可能。情绪识别吸引了来自各个领域的研究人员浓厚的兴趣。传统手工提取特征的方法在脑电情绪识别上取得了不错的成绩,随着深度学习方法的兴起,深度学习已经普遍用于脑电情绪识别,相比于传统手工提取特征的方法,深度网络可以学习到更鲁棒、更深层的特征,从而提高识别精度。而神经网络的宽度和深度一样重要,自宽度学习提出以来,取得了广泛
在无损检测行业中,焊缝缺陷检测是一个重要的分支。在该领域中,射线检测法因其能检测到焊缝的内部缺陷等优点,成为了诸多无损检测方法中的首选。目前大部分X射线成像设备使用的是面状感光元件,而使用线状感光元件的成像设备却有其不可替代的优势。线阵扫描可以极大地提高图像的分辨率,进而显著地提升图像的质量,使得高精度要求下的缺陷检测结果更加可靠。然而,使用线阵扫描得到的图像会带有一些特殊的问题。本文中展示了一种
背景和目的:帕金森病(Parkinson’s disease,PD)是第二大神经退行性疾病,临床主要表现为运动迟缓、肌强直、静止性震颤和姿势步态异常的运动症状,同时还伴随认知功能障碍(Cognitive impairment,CI)、焦虑、抑郁等非运动症状。已有研究表明神经炎症参与PD和PD-CI的发生及发展。其中小胶质细胞在PD和PD痴呆患者脑组织中明显活化,伴随炎症因子增加;而清除小胶质细胞又