论文部分内容阅读
蛋白质是细胞生命活动中最重要和最多样的一种大分子物质,蛋白质功能的研究对新药的发现、作物改良以及人工合成生物化学物质都具有重要的意义。蛋白质功能预测问题本质上是一个多标签分类问题,目前对蛋白质功能预测方法的研究主要是基于传统的判别式分类模型。然而,在蛋白质功能预测中,庞大的功能标签数量及标签之间的层次关联等因素又给多标签分类方法的研究带来了极大的挑战。主题模型是一种起源于文本挖掘领域的概率生成模型,由它发展而来的多标签监督主题模型不但继承了主题模型隐含模式挖掘的能力,而且还能以监督学习的方式实现对文档的多标签分类。将多标签监督主题模型引入到蛋白质功能预测中,对于提高功能预测的准确率、增强预测结果的可解释性均具有十分重要的意义。本文面向蛋白质功能预测问题,对多标签监督主题建模及其学习算法设计的若干关键问题进行了深入研究,主要研究内容和相关成果如下:(1)针对蛋白质功能标签数量庞大且标签关联性较高的特点,提出了一种基于标签簇的精确布尔矩阵分解算法,该算法通过标签关联矩阵实现了标签的层次扩展聚簇。实验结果表明,该算法有效地实现了标签矩阵的精确布尔矩阵分解,在计算复杂度上具有较大优势,同时,该算法对蛋白质功能标签空间的降维及还原为多标签分类器的进一步高效分类奠定了基础。(2)将多标签监督主题模型应用到蛋白质功能预测,并针对已有模型中的标签-主题-词汇的对应关系进行改进,提出一种标签分布LDA模型(LD-LDA),并为该模型设计了收缩吉布斯采样、变分推理、收缩变分推理和零阶收缩变分推理四种学习算法。LD-LDA模型通过将每个观测功能标签表示为全局隐主题空间上的一个概率分布,并引入一个背景标签描述与功能标签相关度不高的隐主题,扩展了标签LDA(LLDA)和部分标签LDA(PLDA)模型的生成理论。实验结果表明,与已有两种模型相比,LD-LDA模型能对功能标签的隐含子结构进行更为精细地描述,并进一步提高了蛋白质功能预测的准确率。(3)为了能充分利用蛋白质的观测特征信息辅助其功能标签预测,本文在多标签主题建模中引入狄里克雷多项回归(DMR)框架提出了DMR-LLDA、DMR-PLDA和DMR-LDLDA三种改进的多标签监督主题模型,并分别为每种模型设计了三种学习算法。该类模型通过对蛋白质的主题(或标签)分布的超参数设置一个由加权特征构造的指数先验,使蛋白质特征参与了多标签主题建模。实验结果表明,由于引入了蛋白质除氨基酸序列以外的特征信息,三种改进模型可以进一步提高蛋白质功能预测的准确率。(4)为了进一步利用蛋白质功能标签间的层次关联信息辅助其功能标签预测,本文在DMR-LLDA和DMR-LDLDA的基础上提出了 CLLDA和CLDLDA两种关联标签监督主题模型,并分别为每种模型设计了三种学习算法。该类模型利用了描述标签间层次相关性的标签关联特征,对全局标签一词语(或主题)的多项分布超参数进行优化。实验结果表明,这种能处理标签关联特征的设计策略,使得改进模型对蛋白质功能预测的准确性有进一步的提高。综上所述,本文首先由布尔矩阵分解实现了对蛋白质功能标签降维,而后从多个方面对多标签监督主题建模及其学习算法进行设计和改进,为蛋白质功能预测提供了一类准确、有效的计算方法。但本文不仅仅是对蛋白质功能预测方法的研究,更是对应用于各种多标签分类场景的监督主题模型的深入扩展。