基于集成深度学习的蛋白质糖化位点预测方法

来源 :华中农业大学 | 被引量 : 0次 | 上传用户:w346399938
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在基因组技术飞速发展的时代,蛋白质组学渐渐成为了研究者们着重研究的对象。蛋白质作为一种直接参与生物体生理生化活动的基础大分子物质,通常需要翻译后修饰(PostTranslational Modifications,PTMs)这一过程,才能转变为可以正常行使功能的成熟蛋白。糖化(Glycation)是一种很重要的翻译后修饰类型,蛋白质发生糖化的过程是一种由一系列生化反应组成的非酶反应过程,糖化反应最终的产物称为高级糖化终产物(Advanced Glycation End products,AGEs),AGEs可以直接使蛋白质变性或者间接与蛋白质形成配体从而介导细胞的炎症反应。目前许多研究表明AGEs与许多疾病相关,例如肾病、阿尔兹海默症和动脉粥样硬化等。传统的质谱验证方法消耗大量的人力和时间,因此使用计算机辅助方法来预测蛋白质糖化位点十分必要。近年来已经有许多机器学习方法应用于蛋白质糖化位点预测,这些方法已经能够比较准确的预测糖化位点,但仍有很多问题需要改进。首先在学习器方面,现有的预测方法大多使用支持向量机作为基础学习器,支持向量机由于其超平面划分的特性可以很好地解决小样本上糖化位点的预测效果,但当糖化位点数据量逐渐增多时在准确性和训练效率等方面无法胜任。其次在特征方面,现有方法仅采用了基于先验知识的生物序列特征,特征来源单一,无法对特征进行充分的表示,而且现有方法的特征学习过程依赖于特征选择,导致模型的泛化性较差。最后在数据层面,现有方法大多使用随机选取一部分负样本的欠采样方法来使正负样本均衡,而这种简单的下采样方法会使模型无法学习到完整的负样本模式,这会导致模型无法区分糖化与非糖化位点的差异。综上,现有方法仍存在许多缺陷需要弥补。为了解决上述这些问题,本文提出了一种基于集成深度学习的蛋白质糖化位点预测方法Gly-EDL(Glycation site prediction with Ensemble Deep Learning)。首先在特征表示方面,GlyEDL采用了多种来源的特征表示,包括蛋白质语言模型特征和生物模式特征,来获取蛋白质糖化位点更为全面的潜在信息。其次在特征学习方面,针对不同类型特征采取不同的特征学习策略,并采用了注意力机制作为集成不同类型特征表示的方法,从而实现集成深度学习的模型架构。由于采用了以上特征学习策略,Gly-EDL的模型架构具有很强的灵活性和高效性,并且在模型的可迁移性方面也有较好的表现。最后针对样本类别不均衡问题,Gly-EDL在模型的训练阶段针对现有数据集采用了基于权重的重采样方法和数据增强方法,一定程度上解决了糖化位点数据缺失和样本类别不均衡的问题,提高了模型的鲁棒性和可迁移性。在采用了以上多种策略之后,Gly-EDL在蛋白质糖化位点预测中与其他现有方法相比取得了更优秀的性能表现,并且在模型的可迁移性方面有明显的优势。最后本文通过提出Gly-EDL方法来预测蛋白质糖化位点,使研究者们能够更加方便地使用计算机辅助方法去初步推测糖化的发生与否,起到初步筛选的作用,从而减轻工作量。另外Gly-EDL旨在为生物序列相关的预测或分类问题提供一种新的解决思路,使得更多其他领域的方法及策略利用到生物序列研究领域中来,为更多研究者们提供便利。
其他文献
雌性的精子贮存是动物界中广泛发生的生理现象,主要包括精子进入下生殖道、暂时贮存于精子贮存库以及精子活化释放等过程。对于体内受精的动物而言,精子贮存是异步交配与排卵的生殖基础。不同的动物有不同的精子贮存策略,在鸟类中,雌性的精子贮存依赖于分布在子宫阴道交接处(uterovaginal junction,UVJ)的精子贮存小管(sperm storage tubule,SST)。基于SST的存在,在一
排卵是指成熟卵泡在促性腺激素刺激下释放具备受精能力的卵母细胞过程。这个过程涉及卵泡中各类细胞的精准互动与命运决定。颗粒细胞(Granulosa cells,GCs)是唯一能识别并响应排卵LH(或HCG)信号的。因此,对LH峰刺激下GCs内基因的分类分析与深入解读是理解排卵的关键。本研究利用RNA-seq、Q-PCR、Western blot、基因敲低、基因敲除等实验手段,在细胞和个体水平,对LH排
长江中下游农业区土壤黏重潮湿,机具碾压使地表平整度差,耕作时耕深不稳定。针对以上问题,本文研究了一种基于拖拉机车身俯仰角与悬挂装置提升臂转角的耕深监控方法。该系统主要由耕深检测系统、耕深控制系统和耕深执行系统组成,能预设耕深值和显示实时耕深。耕深检测系统中的角位移传感器测定悬挂装置提升臂转角,车身倾角传感器实时测定不同地表平整度下的拖拉机倾仰角度;耕深控制系统基于检测系统反馈实时耕深发送电信号至耕
葡萄的营养价值丰富,被誉为世界四大水果之首。葡萄为穗状水果,其紧实度、成熟度,以及破损对葡萄的生长、分级及销售有着极大的影响。目前国内对葡萄的分级手段主要依靠果农的人工分级,人工成本高,分级时间长且分级标准不统一,分级效果良莠不齐。因此葡萄产业急需一种实时智能检测分级的技术方法。成熟度体现了葡萄的口感与甜度,破损程度表征葡萄串果粒的完整度,而紧实度反映了葡萄串的外观疏密。本文以红提串为研究对象,结
肺癌的死亡率在全世界癌症中仍居首位,肺癌的早期筛查和治疗是降低其死亡率的有效手段。基于基因分子的筛查和基于分子靶向疗法的治疗手段已经应用于肺癌的研究,发挥出了重要作用,同时也显示出探索分子靶标的实用性。肺癌转录组研究可以为发现分子靶标提供宝贵价值。目前有关肺癌转录组的研究非常多,也产生了大量的转录组测序(RNA sequencing,RNA-seq)数据,但是缺少一个RNA-Seq全面的自动化分析
首先分析当前高速公路收费系统存在的问题与需求,随后阐述大数据的概念与特点,以及大数据分析在高速公路收费管理中的应用。由于大数据分析具有数据规模大、类型多、价值密度低、处理速度快等特征,其在高速公路收费中的应用,可有效推动高速公路收费管理系统的科技进步,对今后高速公路收费管理工作的意义巨大。
纳米光子学的逆向设计在许多领域有广泛的应用,如超材料、纳米光学天线、光学分束器与模式复用解复用器等。这对纳米光子学器件的逆向设计算法提出了挑战。神经网络作为一种数据驱动的方法,在加快纳米光子器件的逆向设计中起着重要的作用,但直接通过神经网络进行逆向设计会导致输入的目标电磁响应的鲁棒性和稳定性问题。在逆向设计中我们无法先验的得到设计目标的准确信息,因此要求神经网络对输入的目标电磁响应具有鲁棒性,即对
糖尿病已经发展成为全球公共健康问题,具有发病率高和并发症严重的特点,胰岛素抵抗是其核心。随着饮食结构的改变,碳水化合物摄入量逐渐加大,正常人餐后血糖和血胰岛素快速升高,体内持续的高胰岛素水平可能导致胰岛素抵抗从而引发高血糖,最终发展为2型糖尿病。胰岛素抵抗与高尿酸血症具有紧密的联系,人群逐年上升的果糖摄入引起以胰岛素抵抗和高尿酸血症为代表的代谢综合征的流行。控制餐后血糖的临床药物(例如阿卡波糖等α
SiCp/Al复合材料相比于传统合金材料具有较高的比模量、比强度和比刚度,以及更好的尺寸稳定性等特点,被广泛应用于现代航空航天、光学精密仪器、电子、医疗等领域。Si C增强颗粒的存在导致在加工过程中刀具磨损严重且表面质量较差,使得该材料成为一种典型的难加工材料。采用有限元建模方法对SiCp/Al复合材料展开微细切削过程仿真,并研究微量润滑和激光表面熔融改性工艺对该材料可加工性能的改善,对该类材料在
牛顿反平方定律作为引力理论的基石之一,描述了小到日常物品大到天体间的相互作用,但在极小范围内它的正确性并没有得到足够高的验证。除此之外,自然界还存在着其他基本相互作用,趋于最朴素的想法,物理学家们致力于寻找一个统一理论去包含所有的相互作用形式。在漫漫统一路途上,出现了如等级问题、宇宙常数问题需要填补的鸿沟。由此提出的弦理论、膜世界理论、M理论等频频预言着额外维的存在,反平方定律在一定范围内将出现破