基于序列的膜蛋白配体交互研究

来源 :东北师范大学 | 被引量 : 0次 | 上传用户:qqifha
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物信息学是以计算机为辅助工具,通过数学及统计学方法对生物学领域内问题进行建模、分析和仿真的一门交叉学科。随着生物学研究手段取得突破性进展,生物数据不断积累,计算机技术日新月异,生物大数据时代已然来临。生物信息学研究日趋成熟,成为生物学领域不可或缺的重要组成部分,为传统生物研究方法提供强有力的补充和支持。生物信息学在微观领域主要包括基因组学和蛋白质组学,本文研究内容属于蛋白质组学范畴,是用机器学习方法对膜蛋白及跨膜蛋白的结构和功能进行预测分析。膜蛋白是具有特殊结构和功能的一类蛋白质,这类蛋白质与生物膜关系密切,或永久地附着在生物膜上,或短暂地与生物膜发生交互。膜蛋白参与诸多重要的细胞生命活动,例如物质传递、信号传导、免疫应答、能量代谢等。跨膜蛋白是最典型且含量最多的膜蛋白种类,它们贯穿生物膜并永久稳定地嵌于生物膜上,其异常会直接导致疾病的产生。与此同时,跨膜蛋白是医药学领域的重点研究目标,目前市场上超过半数药物的靶蛋白为跨膜蛋白。鉴于膜蛋白及跨膜蛋白的重要生物学意义,科研工作者们一直孜孜不倦地对它们进行研究,并取得了丰硕的成果。利用生物信息学手段对膜蛋白及跨膜蛋白进行研究可以辅助蛋白质相互作用网络建立、代谢通路绘制、药物筛选等工作,针对膜蛋白及跨膜蛋白结构与功能的研究已然成为生物信息学领域的重要研究方向。本文围绕膜蛋白及跨膜蛋白开展一系列研究工作,主要目标是通过机器学习方法,从蛋白质一级序列中提取特征,预测并分析膜蛋白-配体的相互作用。首先,为了弥补一级序列信息不足的缺点,构造两个基于深度学习的跨膜蛋白结构描述符预测器,分别是残基表面可及性预测器(TMP-SSurface)和残基Z坐标预测器(TM-ZC)。残基表面可及性以及Z坐标是与功能密切相关的结构信息,可以为后续针对膜蛋白功能的研究提供帮助。接下来,将预测的残基表面可及性和Z坐标作为特征,构造基于随机森林的膜蛋白-配体结合位点预测器(MPLs-Pred),并根据不同配体类型训练配体特异性预测模型,从而进一步提高预测性能。在对膜蛋白-配体进行研究的过程中,笔者注意到一种典型的以膜蛋白作为靶蛋白的配体:泛醌,并构造了基于XGBoost的泛醌结合蛋白预测器(UBPs-Pred),并对泛醌结合蛋白进行生物信息学分析。根据上述研究思路,本文的研究工作如下:1)本文提出了基于深度学习的跨膜蛋白残基表面可及性预测器TMP-SSurface,残基的表面可及性用于描述残基暴露于外部环境的情况,用相对溶剂可及表面积进行衡量。TMP-SSurface适用于所有类型跨膜蛋白的全序列残基,对跨膜蛋白类型,残基拓扑结构均没有限制,即没有先验知识的约束。TMP-SSurface使用进化保守性、二进制编码以及序列终端标识符作为输入特征,分类模型是Inception与CapsuleNet相融合的复合型深度学习网络。实验证明TMP-SSurface是一个稳定、高效的模型,且具有良好的泛化能力。对不同类型的跨膜蛋白均可取得良好的预测效果。同时,预测器对特征依赖少,深度学习网络可以挖掘跨膜蛋白序列与结构之间的内在联系。2)本文提出了基于深度学习的跨膜蛋白残基Z坐标预测器TM-ZC,跨膜蛋白的残基Z坐标描述残基到生物膜中心平面的垂直距离,是定量衡量残基与生物膜之间相对位置关系的结构描述符。与TMP-SSurface相似,TM-ZC同样适用于所有类型跨膜蛋白的全序列残基,使用者不需要先验知识。TM-ZC使用的特征与TMP-SSurface相同,即进化保守性、二进制编码以及序列终端标识符。分类模型是包含七个卷积层的卷积神经网络。实验证明TM-ZC模型稳定,具有良好的泛化能力,且对各种类的跨膜蛋白预测性能良好。3)在前面工作的基础上,本文提出了基于随机森林的膜蛋白-配体结合位点预测器MPLs-Pred。蛋白质很多基本功能是依赖于与配体发生交互而完成的,配体结合位点预测是蛋白质功能注释的重要工作之一。MPLs-Pred使用四种特征对膜蛋白残基进行特征编码,分别为进化保守性、物理化学属性、表面可及性以及Z坐标,其中表面可及性和Z坐标分别由TMP-SSurface和TM-ZC预测得到。MPLs-Pred的分类器为随机森林,并使用多倍随机欠采样策略解决严重的样本不平衡问题。此外,考虑到不同配体存在巨大差异,将配体分为三种类型,分别为类药化合物、金属以及生物大分子,并分别训练得到配体特异性预测模型,进一步提高预测器性能。除此之外,本研究还对人类的类药化合物靶标膜蛋白进行了基因本体富集分析和KEGG通路富集分析。4)在对膜蛋白-配体交互数据进行整理分析的过程中,泛醌引起了笔者的关注,其靶蛋白中有86.9%为膜蛋白,其中68.5%为跨膜蛋白,是一种典型的以膜蛋白作为靶标的配体。本文提出了泛醌结合蛋白识别模型UBPs-Pred,并对泛醌结合蛋白进行生物信息学分析。UBPs-Pred使用氨基酸组成、二肽组成以及进化保守性三种特征对蛋白质进行特征编码,使用随机森林对特征重要性进行排序,并通过增量特征选择策略进行特征选择。UBPs-Pred使用XGBoost作为分类器,考虑到XGBoost涉及参数较多且性能对参数敏感,本实验使用多目标粒子群算法对XGBoost的参数进行优化。实验证明UBPs-Pred性能很好。为了对泛醌结合蛋白进行进一步了解,本实验对泛醌结合蛋白进行了生物信息学分析,包括:对泛醌结合域中的模体进行统计;对泛醌结合蛋白的超级家族进行分类统计;对人类的泛醌结合蛋白进行基因本体富集分析以及KEGG通路富集分析。
其他文献
"一带一路"倡议下我国建筑企业承接南美洲项目日渐增多,南美洲工程项目监理与国内监理制度差异较大。以玻利维亚某公路工程项目为例,从监理与发包人的关系、监理的地位与权利、监理的业务范围、监理的人员配备、监理工作态度、监理对索赔的处理、监理对于环境与动物保护的规定和监理的日常生活服务要求等八个方面对海外工程项目监理与国内监理进行差异化研究。
在"一带一路"倡议的推动下,我国对外承包工程企业紧抓新机遇,积极开拓国际市场,在"一带一路"相关国家的项目新签合同额及完成营业额均呈现稳步增长的态势。但在海外工程项目中,除中国援建项目,中国工程建设标准的应用率总体偏低,中国工程建设标准在国际工程市场认可度不高。对此,本文针对中国对外承包工程项目标准采用情况、中国标准在海外应用情况、中国标准在海外应用面临的问题等进行分析,并提出相关建议,以期
期刊
目的提高42CrMo钢激光淬火后硬化层的深度和分布均匀性。方法利用COMSOL Multiphysics软件对42CrMo钢激光淬火过程中温度场的演变进行分析,且考虑材料的热物性参数随温度变化。通过设定激光工艺参数模拟试样的温度场分布,利用马氏体转变条件得到硬化层形貌尺寸。参照模拟结果,利用连续输出的光纤耦合半导体激光器对42CrMo钢进行激光淬火实验,用热电偶测温仪对试样测温并与模拟的温度历史曲
刘美凤,女,1966年出生,博士,教授,博士生导师。北京师范大学教育技术学专业第一届本科生,1992年获教育技术学硕士学位,导师为尹俊华编审;1992年留校任教,指导教师为乌美娜教授;1997—2002年攻读比较教育专业博士,导师为顾明远教授。
期刊
海外工程项目廉洁风险防控存在诸多难点、堵点,本文通过从提高认识、夯实基础、强化执行、持续宣教等方面进行论述,探讨海外项目加强党风廉政建设、筑高防腐反腐堤坝的可行思路。
针对城市发展的过程中实际特点,深入分析了现阶段市政规划中存在的问题,在此基础上,进一步提出了可持续发展思路下的市政规划措施。
技术的进步刺激了建筑行业的转型发展,多年来,我国建筑行业已经进入了信息化的发展阶段,各种信息技术在建筑工程项目中的应用,形成了新型的工程管理模式,在带动管理模式创新的过程中,也给工程企业创造了较大的利润空间,使得工程企业可在激烈的市场竞争中获得技术竞争力,加快其稳定发展的步伐。但工程信息化和造价管理信息化在未来还有着巨大的发展空间。基于此,本文分析了关于建筑工程信息化应用和工程造价管理方面的内容,
刘××,女,23岁。已婚,1986年4月23日诊。一个月前外阴瘙痒、疼痛,日渐加重,自扪及两侧大阴唇及会阴处有多个肉芽组织,高出皮肤,触痛,伴白带增多,色黄气臭,口干苦。妇检:两侧大阴唇及会阴部长有0.5×0.5~0.5×1cm2形似鸡冠样赘
期刊