论文部分内容阅读
蛋白质相互作用在许多细胞过程中扮演着十分重要的角色。蛋白质相互作用网络预测和功能研究对理解生命活动的分子机制、疾病治疗、新药开发都具有重要意义。随着高通量实验技术的发展,人们获得了大量的蛋白质相互作用数据,为深入研究蛋白质相互作用提供了宝贵的资源。然而,蛋白质相互作用机理十分复杂,相互作用数据呈现大规模、高噪声等特点,这给生物信息学研究带来了前所未有的挑战。如何有效地确定蛋白质间的相互作用关系,进而构建完整的蛋白质相互作用网络,并对蛋白质功能进行精准注释成了摆在人们面前的一项艰巨而富有挑战性的任务。本文围绕蛋白质相互作用这一主题,对蛋白质相互作用预测与基于蛋白质相互作用的功能注释方法进行了研究,论文主要研究内容和创新点如下:(1)基于序列的蛋白质相互作用预测方法研究。本文利用蛋白质的基本序列特征,对蛋白质相互作用预测过程中的编码方法和分类算法进行了研究。首先,提出了一种新的蛋白质对编码方法——对称编码方法。该方法将一个蛋白质对编码为特征空间中两个对称的样本点,从而有效地利用了蛋白质对中两个蛋白质的特征信息,提高了相互作用预测的精度。接着,对现有的两种模式分类方法进行了改进。将核的思想引入局部超平面分类算法中,提出了核局部超平面分类算法;另外,提出了一种基于局部支持向量机的预测方法,该方法充分考虑了蛋白质相互作用数据的局部相似性特征,进而在待测样本附近构建支持向量机模型。这两种算法为蛋白质相互作用预测提供了新的解决方法。(2)结构域相互作用预测方法研究。结构域是蛋白质结构和功能的基本单元,多数蛋白质相互作用是特定结构域介导的。因此,识别结构域间的相互作用,从结构域水平理解蛋白质间的相互作用尤为重要。本文提出了一种基于支持-反对模型的结构域相互作用预测方法,该方法分别利用支持模型和反对模型对结构域间的相互作用情况进行打分,然后将打分结果进行综合,判别结构域间的相互作用。在一组大规模蛋白质相互作用数据集上,该方法表现出良好的预测性能,为结构域相互作用预测提供了新的手段。(3)研究了蛋白质相互作用可信度对功能注释的影响。实验得到的蛋白质相互作用数据具有不同的可信度,当利用这些数据预测蛋白质功能时,传统方法对每个样本平等对待,很少考虑相互作用数据的质量问题。本文研究了蛋白质相互作用数据的质量对功能注释方法预测性能的影响,在原有近邻投票法和卡方法的基础上,提出了两种改进的蛋白质功能预测方法——加权近邻投票法和加权卡方法,改进后的方法能够有效地利用不同可信度相互作用样本中的有益信息,减少了噪声对功能预测性能的负面影响,显著提高了功能预测算法的性能。(4)基于蛋白质相互作用网络的蛋白质功能预测方法研究。相互作用的蛋白质趋于具有相同或相似的功能,这使得从蛋白质相互作用网络对蛋白质的功能进行预测成为可能。为了对蛋白质功能进行有效地预测,本文提出了一种新的广义全局优化框架,该框架充分考虑了相互作用网络中距离较远的蛋白质间的功能相似性问题,定义了一种开放目标函数,并给出了求解该目标函数最小值的通用解法。使用该框架,提出了一种基于广义优化框架和随机游走的蛋白质功能预测方法,测试结果表明,该方法具有良好的预测性能,优于现有的一些功能预测方法。另外,本文还提出了一种基于Logistic回归的蛋白质功能预测方法,并对预测过程中的特征选择问题进行了研究。结果表明,基于Logistic回归的方法能够对蛋白质的功能进行有效地预测,利用特征选择方法,不仅可以降低特征空间的维数,有效去除冗余特征,而且能够揭示相互作用网络中的功能联系,提高功能预测的性能。