论文部分内容阅读
蛋白质几乎参与了细胞生命活动的全程,在其中扮演重要的角色。蛋白质组学收集整合了蛋白质相互作用及其在网络中不同层次的信息来预测蛋白质功能,继而掌握生命体疾病发生以及细胞代谢等过程和规律,为医学研究提供依据。科学家们通过高通量生物实验和计算方法获得大量直接或者间接的蛋白质相互作用数据,这些数据中的假阳性和假阴性噪声使数据质量下降,导致蛋白质功能预测的结果出现偏差,影响了数据的准确率。本文针对这些问题,利用蛋白质相互作用网络图的相关特点,依据图理论的有关特性,引入有向双关系图等构图知识,结合多核学习以及直推式学习方法,构建了以图理论为基础的多标记模型,并在酵母和小鼠的蛋白质多源异构数据中进行了实验,验证了模型的优势以及方法的有效性。针对多源异构蛋白质数据信息量巨大,噪声冗余导致预测结果出现偏差,反映数据分布信息不全面,影响预测结果的准确性,本节采用有向双关系图和多核融合的方法预测蛋白质功能。首先使用有向双关系图来代替蛋白质网络和功能网络间关系,通过图优化策略将功能类别网络和蛋白质相互作用网络构成的多个网络进行融合,最后将融合后的网络矩阵代入到含有损失函数的目标方程中,使用最大期望算法预测蛋白质功能,通过在酵母和小鼠上的实验验证了方法的有效性。针对多核融合过程中需要多次计算组合系数,对内存的需求量较大、时间消耗多和现实生活中标签集非常欠缺的问题,本节采用了有向双关系图和直推式多标记学习方法来进行蛋白质功能预测,将大量的无标记数据和部分有标记数据结合在一起,通过挖掘它们之间有限的近邻信息,将维度扩充后的相互作用矩阵应用到图优化模型中求解功能标签的排序以及个数,从而实现为无标记数据分配标签的方法,为进一步提高精确度,数据源采用蛋白质多源异构数据,最后使用了分类器集成策略来对结果进行优化集成。通过实验结果,说明了本文提出的方法与其他多核多标记分类方法对比具有明显优势,分类性能稳定。