论文部分内容阅读
蛋白质交互(Protein-Protein Interaction,PPI)信息是生物学研究的重要内容之一。目前通过生物学实验发现的PPI信息主要以非结构化文本的形式保存在生物文献当中,生物学家试图从这些文献中手工地识别出PPI并将其录入关系数据库,用以建立可利用的知识网络。然而随着生物学科技文献的日益激增,通过手工方式来搜集蛋白质交互信息显然难以满足实际的应用需求。因而研究如何从生物医学文献中自动识别PPI对于生物医学的发展具有重要的意义。目前PPI识别效果较好的基于机器学习的方法大多以单个句子作为识别的依据,这种方法忽略了蛋白质交互的上下文信息难以对交互特征进行全面的把握,还有就是需要对训练集句子中的每对蛋白质都进行标注,训练集的缺乏使得其难以满足PPI自动识别的要求。为了解决以上这些问题,本文则在关系相似性框架下以大规模文本为依据,首先建立了基本的关系相似性(Relational Similarity,RS)模型,实验比较了此模型下多种相似性度量策略,权值表示对识别结果的影响,最终得出了比较合理的衡量关系相似性的函数以及权重表示方法,实验结果表明以余弦距离衡量关系相似性以及二值权重表示所建立的基本RS模型识别精确度及召回率均较高(75%左右)且两者之间相对均衡。我们采用此RS模型做初始判断,然后基于大规模语料Pub Med计算出单词特征间的语义相似性建立单词相似性模型;最后针对基本RS模型在关系相似性计算过程中忽略了特征单词间语义关联性的缺陷,在基本RS模型的基础上通过权值调整,特征聚类(添加聚类簇特征,以聚类簇为特征)三种方案引入单词相似性模型做改进从而最终提高PPI系统的识别精度。实验结果表明,单词相似性的引入进一步提高了识别系统的F值,三种方案改进后的模型识别有交互的蛋白质对相对于基本模型依次提高了2.03%,1.59%,2.47%识别无交互的蛋白质对依次提高2.96%,1.73%,2.94%。