蛋白质相互作用位点预测方法研究

来源 :南京理工大学 | 被引量 : 3次 | 上传用户：miracle_l

【摘要】

：

蛋白质是生命活动的物质基础,蛋白质的相互作用广泛存在于生命细胞的活动周期内并发挥重要的作用。蛋白质的相互作用是通过部分残基的相互作用实现的,这些残基被称为蛋白质相

【作者】

：

魏志森

【出处】

：

南京理工大学

【发表日期】

：

2016年01期

【关键词】

：

蛋白质相互作用作用残基预测基于序列的预测类不平衡分类器集成

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

蛋白质是生命活动的物质基础,蛋白质的相互作用广泛存在于生命细胞的活动周期内并发挥重要的作用。蛋白质的相互作用是通过部分残基的相互作用实现的,这些残基被称为蛋白质相互作用位点。识别参与这些相互作用的残基有助于对分子机制的理解。同样,由于某些疾病的发生与特定蛋白质的相互作用密切相关,识别其中涉及的残基也可以促进治疗药物的研发。通过生物实验方法识别蛋白质相互作用位点存在高人力成本和时间周期长的问题,因此,迫切需要一种简单有效的计算方法对蛋白质相互作用位点进行预测。于是,蛋白质相互作用位点的预测成为了计算生物学研究的一个热点。由于蛋白质相互作用的复杂性与多样性,蛋白质相互作用位点的预测仍然是一个挑战性的问题,特别是从蛋白质序列直接进行的预测。在以上背景下,本文对机器学习的方法在蛋白质相互作用位点预测中的应用进行了研究,并将重点放在基于序列的作用位点预测。本文在总结已有方法的基础上,从机器学习的角度提出了需要解决的关键科学问题,即类不平衡问题。针对该问题,提出了三种分类方法,并用于基于序列的蛋白质相互作用位点的预测。本文的主要工作可以归纳如下:(1)回顾了蛋白质相互作用位点的计算方法预测的进展,总结了基于机器学习的蛋白质相互作用位点预测的一般过程。针对残基的特征表示,介绍了经常使用的特征属性,并给出现有工作所验证的比较有鉴别性的特征。根据特征的来源不同,将方法分成基于序列的和基于结构的分别介绍,总结了提高预测性能的一般策略。最后,提出了蛋白质相互作用位点预测器的训练中经常碰到的类不平衡的问题,这也是机器学习的方法需要解决的问题。(2)提出了一种级联的随机森林集成方法。针对类不平衡问题,提出了一种级联结构的样本采样与分类器集成的结合方案。在这个方案中,样本采样与分类器学习依次交替进行,先通过样本采样得到平衡的训练集用于训练随机森林模型,再用这个训练好的模型对所有样本进行评估,削减一部分容易的多数类样本,然后再在剩余的样本集上重复以上的样本采样、模型训练和样本削减过程,直至剩下平衡的样本集。最后,以一种级联的结构将训练好的多个随机森林模型集成起来。在基准数据集上详尽的比较实验证明了提出的方法处理类不平衡问题的有效性,也证明了提出的预测器的性能战胜了当前的领先水平。另外,从特征的重要性分析中发现了溶剂可及性是所使用的特征中最有鉴别力的。(3)提出了一种支持向量机与样本加权的随机森林的集成方法。该方法结合代价敏感学习和分类器集成,用以缓解类不平衡问题,提升蛋白质相互作用位点预测性能。基于预先训练的支持向量机模型的评估,赋予每个样本不同的代价权重,在此过程中保持两类的样本权重和的大致相等;再将这个权重用于训练样本加权的随机森林。该方法用这个策略一方面保证了学习的模型避免了类不平衡的问题,另一方面提升了两个分类器的集成效果。另外,提出了一种新的特征表示方法,该方法用更低维数的向量有效地表示残基。基准数据集上的实验结果证明了提出的方法有效地缓解了类不平衡的问题,并在蛋白质相互作用位点的预测上取得了显著的性能提升。特征的重要性分析实验证明了提出的特征表示方法的有效性,同时也验证了溶剂可及性的较其它特征显著的鉴别力。(4)基于前面研究工作得出的溶剂可及性鉴别力的结论,提出了一种基于溶剂可及性采样的集成方法。针对随机采样可能造成的信息损失,该方法基于样本的溶剂可及性的分布,用一种简单的方法将样本按照溶剂可及性分成多个子集,再在每个子集内分别采样。通过这个策略,缓解了采样造成的在溶剂可及性这个最有鉴别力的特征上的信息损失。然后,结合其它特征在采样的子集上训练随机森林分类器。为进一步提升性能,基于多次采样的结果训练多个模型进行分类器集成。基准数据集上的实验结果证明了提出的采样方法对于随机采样的性能提升,也验证了训练的预测器的性能改善。

其他文献

孩子“人来疯”,心里在想啥?

<正>许多家长不解,孩子平时聪明伶俐,讨人喜欢,可是家里一来客人,不知什么原因,他就异常兴奋,大呼小叫、上蹿下跳,影响大人说话,而且屡教不改,典型的"人来疯"。孩子为什么会

期刊

外向型性格动画片

液/固双相流冲刷腐蚀实验装置的研制及动态电化学测试

本文介绍自制的冲刷腐蚀实验装置,该装置能对高速转动的试样进行不同温度下的电化学测试及冲刷与腐蚀交互作用的研究。利用该装置对管线钢X60和不锈钢AISI321的电化学测试结

期刊

冲刷腐蚀液/固双相流装置电化学

脑卒中患者急性期的体位护理及预后观察

目的了解体位护理在急性脑卒中偏瘫患者中应用的临床意义。方法对92例偏瘫患者随机分组,实验组46例,入院后第1天开始进行体位护理,病情稳定后配合功能康复锻炼;对照组46例,没

期刊

脑卒中体位护理预后观察

论晚明生员的弃巾之风

明代晚期，生员弃巾蔚然成风。探其原因，主要有三点：一、科举入仕道路的壅塞。将大量士人拒之门外；二、受阳明心学影响。晚明士人普遍以“狂”自居。不屑走科举仕进之路；三、明清易

期刊

晚明生员弃巾山人

英国大学办学理念、资金筹措及国际化战略的特点——中国高校领导赴英国培训团的报告

本报告详细介绍了英国大学的办学理念与战略定位、组织架构与运行机制、资金筹措与财务管理、国际化战略与具体实施等方面的特点,并结合我国大学管理的实际,就如何借鉴其经验

期刊

战略定位资金筹措国际交流大学英国

康复新液治疗新生儿尿布皮炎的疗效观察

<正>新生儿尿布皮炎是新生儿常见病、多发病,是由于使用透气性差的尿布或者是被大小便浸湿的尿布未及时更换,使婴儿臀部处于湿热状态,加上尿中尿素被粪便中细菌分解而产生氨,

期刊

新生儿接触性皮炎康复新液护理

幼儿为什么有时自言自语?

<正> 在日常生活中,我们不难看到这样的现象:有的幼儿在独自玩时突然伤心地哭起来,成人问其原因,会听到他认真地说:『我和小明到山上玩,小明被大灰狼吃掉了。』说完哭得更伤

期刊

灰狼小红成人

发力职教学堂在线MOOC盈利突围

MOOC（大规模开放式网络课程massive open online courses）发展至今，盈利模式却依旧模糊。学堂在线依靠高校资源，从去年开始，尝试把MOOC平台进行创新，发展学历教育，同时由高校向职业

报纸

两种加压方法应用于PICC穿刺点止血的效果观察

目的探讨PICC置管后有效止血、避免上肢肿胀并提高患者舒适度的加压止血方法。方法对120例PICC置管后患者在常规护理的基础上,随机分为两组各60例。对照组以宽8 cm的自粘性弹

期刊

PICC穿刺止血加压方法

39例血管免疫母细胞性T细胞淋巴瘤的临床特点和预后分析

背景及目的:血管免疫母细胞性T细胞淋巴瘤(Angioimmunoblastic T-cell lymphoma,AITL)是较常见的外周T细胞淋巴瘤(PTCL),占PTCL的18.5%[1]。研究认为AITL来源于生发中心的辅

学位

血管免疫母细胞性T细胞淋巴瘤淋巴瘤临床特征预后

蛋白质相互作用位点预测方法研究

与本文相关的学术论文