基于序列信息的蛋白质-配体结合位点预测研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:wanjia456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质是生物体细胞的重要组成部分,在生物体的各种生命活动中发挥至关重要的作用。在生物体内,蛋白质需要与配体发生结合作用以实现其特定的功能,因此准确识别蛋白质与配体的结合位点对于理解蛋白质功能,探索疾病的发病机制以及新型药物的设计开发具有重要意义。根据所使用的信息种类,蛋白质-配体结合位点预测研究可分为基于序列信息的预测方法和基于结构信息的预测方法。基于序列信息的预测方法仅使用从蛋白质序列中提取的序列特征结合机器学习算法实现对结合位点的预测。相比于基于结构信息的预测方法,基于序列信息的预测方法在已知数据量和数据丰富程度上都具有优势,因此拥有更广泛的应用前景。现阶段基于序列信息的预测方法主要面临两个方面的挑战:首先,蛋白质-配体数据集中存在明显的样本不平衡现象,序列中结合位点的样本数量明显小于非结合位点的样本数量;其次,当前应用的机器学习算法的分类性能仍有待提高。针对以上问题,本文围绕基于序列信息的蛋白质-配体结合位点预测开展研究工作,主要贡献和创新点如下:1.提出基于混合预测思想的蛋白质-RNA结合位点预测方法。针对蛋白质-RNA结合位点提出一种基于序列特征和序列模板的混合预测方法。基于序列特征预测方法提取理化属性、进化保守性和协同进化性三类特征,结合随机森林分类算法,得到目标氨基酸的原始分类概率。为了削弱样本不平衡对预测性能的影响,本文基于RNA结合位点在蛋白质序列上的聚集特性提出一种概率调整算法,有效纠正原始分类结果中的误分类样本。基于序列模板预测方法通过比对目标序列与模板序列之间的相似序列片段,将模板序列上存在的结合位点映射到目标序列中。最后,根据两种预测方法的特性,将基于序列特征和基于序列模板预测方法的结果进行整合。2.提出基于氨基酸相邻相关性的蛋白质-DNA结合位点预测方法。氨基酸作为组成蛋白质序列的基本单位,每种氨基酸都具有其独特的理化属性。当目标氨基酸在蛋白质序列中与其相邻氨基酸构成序列片段时,目标氨基酸的DNA分子结合能力将受到其自身理化属性和相邻氨基酸理化属性的共同影响。本文针对蛋白质序列上的DNA结合位点提出基于氨基酸相邻相关性的N-阶概率调整算法,挖掘目标序列中由类别不平衡造成的未能有效识别的结合位点,提升预测方法对于DNA结合位点的识别能力。3.提出基于卷积神经网络的蛋白质-ATP结合位点预测方法。ATP作为一种小分子,在蛋白质序列上的结合位点数量相比大分子更少,导致数据集中的类别不平衡现象更严重,因此有必要应用分类性能更强的机器学习算法。本文基于深度学习框架中的卷积神经网络提出两种分类架构,并分别命名为“Residual-Ince ption”分类架构和“Multi-Inception”分类架构,应用卷积神经网络能够挖掘深层数据特征的特性,构建输入序列特征的深层表达。同时,在损失函数的计算中,对少数类样本赋予更高权重,使分类网络更加关注少数类样本的预测准确性。最后,将两种分类网络的输出进行整合,提升预测方法的整体性能。4.提出基于卷积神经网络和Light GBM分类算法集成的蛋白质-ATP结合位点预测方法。在上述研究的基础上,本文进一步考虑蛋白质序列特征之间存在的差异性对预测性能的影响,提出两种应用分离特征的多输入卷积神经网络分类架构。两种分类架构分别基于卷积神经网络中的Inception模块和Xception模块进行构建,并分别命名为“Multi-Incep Res Net”分类架构和“Multi-Xception”分类架构。同时,将卷积神经网络与Light GBM分类算法进行集成,通过增加分类算法的丰富性和多样性,追求预测性能的进一步突破。基于蛋白质序列信息,本文针对蛋白质-RNA、蛋白质-DNA和蛋白质-ATP结合位点的预测提出4种方法。针对当前研究中存在的问题,提出具有纠错能力的概率调整算法,构建分类性能更强的卷积神经网络架构。实验结果表明:本文提出的方法在多个评估指标上均显示了优良的性能。这些方法有助于基于序列信息的蛋白质和其他配体结合位点的相关研究,为蛋白质-配体结合位点预测研究起到了积极的促进作用,对于生物信息学中的相关预测问题同样具有参考价值。
其他文献
相控阵天线能够实现快速波束扫描、自适应波束形成及抗干扰、高精度搜索及跟踪等先进功能,广泛应用于军民领域的各个场景。未来的电子平台的发展方向趋于电子侦察、电子干扰、雷达探测、无线通信等多功能一体化。另一方面,面对日益复杂严峻的战场环境,电子平台的隐身技术已成为当前军事领域发展的重要方向,对搭载的天线数量及天线的雷达散射截面(Radar Cross Section,RCS)提出了更严苛的要求。因此,未
通过识别手势动作对设备进行隔空操作是自然人机交互的重要手段。基于高分辨雷达的手势动作识别具有目标信息丰富、隐私保护性能良好以及光照鲁棒性等优势,是目前手势识别领域的热点研究方向,在智能家居、自动驾驶等领域有潜在应用需求。作为传统人机交互的替代模式,现有的高分辨雷达手势识别技术着重解决手势动作识别准确性的问题,而针对识别方法高鲁棒性和低延迟性的研究还不够深入。为了解决上述问题,本文通过分析手势动作的
锂硫电池是一种高能量密度(2600 Wh kg-1)和低成本电池体系,具有潜在的应用前景,因此受到了学术界和工业界的广泛关注。但是,锂硫电池距离大规模商业化应用还有很多问题需要解决,主要包括以下几个方面:(1)穿梭效应造成活性物质损失,导致容量衰减以及循环寿命缩短;(2)充放电产物(硫和硫化锂)导电性差,影响了反应的动力学性能;(3)含硫物种在充放电过程中产生巨大的体积变化,影响电极结构的稳定性与
随着无线通信的迅速发展,未来网络中数据速率需求爆炸式增长,以适应不断涌现的新型智能业务。超密集网络(Ultra-dense network,UDN)旨在特定区域内部署大量具有低功耗的接入点(Access point,AP),是实现未来网络无缝覆盖、高速通信、海量接入的关键技术之一。然而,随着网络中接入点的密集部署导致了不规则的小小区结构,也使得其覆盖区域的干扰分布更加复杂。为了实现更高速率、更低时
在当前全球碳达峰碳中和发展理念下,锂离子电池作为一种绿色储能器件,受到社会的广泛关注。然而,锂离子电池由于锂矿产资源匮乏、分布不均以及高昂的成本,在中国大规模储能领域的应用受到明显的限制。为开发新一代低成本储能器件,有机钾离子电池引起了研究者的重视。相比于常规的无机材料在储钾时普遍存在的结构坍塌、稳定性差等问题,有机材料被证明可以稳定存储离子半径更大的钾离子,具有绿色环保、结构可设计以及性能可调控
伴随着“双碳”目标的提出,能源结构发生转变,可再生能源并网渗透率不断增加,新能源的间歇性和波动性问题给电网的稳定性带来极大冲击,仅依靠传统手段来维持电力系统安全稳定运行的方式面临严峻挑战。需求侧负荷资源通过灵活聚合后参与系统优化调度,可以有效抑制新能源波动问题,然而传统负荷聚合方法没有充分考虑用户响应意愿差异,进而在调度过程中对用户用电体验造成一定程度影响,无法满足电网精细化管控需求。本文以海量柔
基于随机分布反馈的光纤随机激光器打破了人们对激光器的常规认知。其复杂的物理机制和开放腔结构为光纤激光器的基础研究和多维度调控提供了良好的平台。鉴于其无纵模、输出稳定、结构简单、转换效率高等特点,光纤随机激光器已经历了十多年的快速发展,从最初的单一形态向多样化拓展。从光谱演变、时域特性等理论基础的深入研究,到宽带可调谐、多波长、窄线宽、高功率、低噪声等多类型光源的实现,再到从近红外到可见光和中红外的
当今社会的发展还是主要依靠化石燃料,随着“碳达峰、碳中和”目标的提出,能源结构的转变势在必行。氢气具有非常高的能量密度,而且燃烧产物是水,不会造成环境污染问题。可再生能源电解水制氢应用前景广阔,析氢反应(hydrogen evolution reaction,HER)往往要克服高的反应势垒,需要合适的催化剂降低反应势垒,从而提高产氢效率。目前贵金属Pt仍然是最有效的HER催化剂,但受限于数量稀少且
分子筛由于具有可调控的酸性、较大的比表面积、较高的热/水热稳定性以及丰富的孔道结构,被广泛应用于吸附分离、离子交换、催化以及一些新兴领域。其中,钛硅分子筛titanium silicalite-1(TS-1)归属于MFI拓扑结构具有双十元环孔道,Beta分子筛归属于*BEA拓扑结构具有三维十二元环孔道,它们因其独特的孔道结构,在催化反应中展现出优异的择形性,是两种重要的工业催化剂。然而传统分子筛催
胶囊神经网络是近几年提出来的以向量为基本单元的新型神经网络模型,其特点是能够有效学习图像中实体之间的空间层级信息。深度胶囊神经网络则是胶囊模型研究的重要组成部分,是一种新兴的深度学习模型,其研究还处于初期阶段,存在诸多有待解决的问题,其中包括:缺少适合深度结构的胶囊路由算法、缺少合理的网络架构、模型参数需求量过大、缺少有效的胶囊正则化方法等。为进一步推动深度胶囊神经网络的理论完善,本文针对上述这些