论文部分内容阅读
蛋白质是生命活动的物质基础,蛋白质的相互作用广泛存在于生命细胞的活动周期内并发挥重要的作用。蛋白质的相互作用是通过部分残基的相互作用实现的,这些残基被称为蛋白质相互作用位点。识别参与这些相互作用的残基有助于对分子机制的理解。同样,由于某些疾病的发生与特定蛋白质的相互作用密切相关,识别其中涉及的残基也可以促进治疗药物的研发。通过生物实验方法识别蛋白质相互作用位点存在高人力成本和时间周期长的问题,因此,迫切需要一种简单有效的计算方法对蛋白质相互作用位点进行预测。于是,蛋白质相互作用位点的预测成为了计算生物学研究的一个热点。由于蛋白质相互作用的复杂性与多样性,蛋白质相互作用位点的预测仍然是一个挑战性的问题,特别是从蛋白质序列直接进行的预测。在以上背景下,本文对机器学习的方法在蛋白质相互作用位点预测中的应用进行了研究,并将重点放在基于序列的作用位点预测。本文在总结已有方法的基础上,从机器学习的角度提出了需要解决的关键科学问题,即类不平衡问题。针对该问题,提出了三种分类方法,并用于基于序列的蛋白质相互作用位点的预测。本文的主要工作可以归纳如下:(1)回顾了蛋白质相互作用位点的计算方法预测的进展,总结了基于机器学习的蛋白质相互作用位点预测的一般过程。针对残基的特征表示,介绍了经常使用的特征属性,并给出现有工作所验证的比较有鉴别性的特征。根据特征的来源不同,将方法分成基于序列的和基于结构的分别介绍,总结了提高预测性能的一般策略。最后,提出了蛋白质相互作用位点预测器的训练中经常碰到的类不平衡的问题,这也是机器学习的方法需要解决的问题。(2)提出了一种级联的随机森林集成方法。针对类不平衡问题,提出了一种级联结构的样本采样与分类器集成的结合方案。在这个方案中,样本采样与分类器学习依次交替进行,先通过样本采样得到平衡的训练集用于训练随机森林模型,再用这个训练好的模型对所有样本进行评估,削减一部分容易的多数类样本,然后再在剩余的样本集上重复以上的样本采样、模型训练和样本削减过程,直至剩下平衡的样本集。最后,以一种级联的结构将训练好的多个随机森林模型集成起来。在基准数据集上详尽的比较实验证明了提出的方法处理类不平衡问题的有效性,也证明了提出的预测器的性能战胜了当前的领先水平。另外,从特征的重要性分析中发现了溶剂可及性是所使用的特征中最有鉴别力的。(3)提出了一种支持向量机与样本加权的随机森林的集成方法。该方法结合代价敏感学习和分类器集成,用以缓解类不平衡问题,提升蛋白质相互作用位点预测性能。基于预先训练的支持向量机模型的评估,赋予每个样本不同的代价权重,在此过程中保持两类的样本权重和的大致相等;再将这个权重用于训练样本加权的随机森林。该方法用这个策略一方面保证了学习的模型避免了类不平衡的问题,另一方面提升了两个分类器的集成效果。另外,提出了一种新的特征表示方法,该方法用更低维数的向量有效地表示残基。基准数据集上的实验结果证明了提出的方法有效地缓解了类不平衡的问题,并在蛋白质相互作用位点的预测上取得了显著的性能提升。特征的重要性分析实验证明了提出的特征表示方法的有效性,同时也验证了溶剂可及性的较其它特征显著的鉴别力。(4)基于前面研究工作得出的溶剂可及性鉴别力的结论,提出了一种基于溶剂可及性采样的集成方法。针对随机采样可能造成的信息损失,该方法基于样本的溶剂可及性的分布,用一种简单的方法将样本按照溶剂可及性分成多个子集,再在每个子集内分别采样。通过这个策略,缓解了采样造成的在溶剂可及性这个最有鉴别力的特征上的信息损失。然后,结合其它特征在采样的子集上训练随机森林分类器。为进一步提升性能,基于多次采样的结果训练多个模型进行分类器集成。基准数据集上的实验结果证明了提出的采样方法对于随机采样的性能提升,也验证了训练的预测器的性能改善。