论文部分内容阅读
蛋白质互作用描述了蛋白质间的相互作用关系,对于生物医学具有重要的理论和应用价值。随着生物医学的发展,人工从文献中获取蛋白质互作用信息已不能适应生物文献数量迅速增长的需要。文本挖掘技术能自动地从文本中发现知识,因而在蛋白质互作用信息提取任务中得到了广泛的应用。传统的方法在蛋白质命名实体识别和互作用抽取性能上难以满足实际需要,此外对标注语料的依赖制约了算法的性能。为了解决这些问题,以机器学习中的判别式模型为理论基础,论文研究工作包括蛋白质命名实体识别和蛋白质互作用信息抽取两个任务。本文主要原创性工作包括以下四个方面:1.提出了一种基于条件随机域模型,并结合特征选择和后处理的蛋白质命名实体识别方法。该方法在提取蛋白质命名实体特征的基础上,对传统的词特征方法进行扩展。增加的模块包括:基于信息增益的特征选择,及后处理阶段采用的基于词性分析的边界规则和单词过滤方法。实验表明,与传统方法相比,该方法能够更好地适应于具有复杂定义模式的命名实体识别任务。2.提出了一种基于模型融合的蛋白质互作用信息抽取模型。基于级连法的思想,将模式匹配的结果作为特征融合到词特征方法中,使得模型兼具模式学习和词特征方法的优点。在模式学习中,对单模式评价的方法进行改进,并提出基于性能增益的模式评价的方法,能够有效地去除性能低下的模式和冗余模式。实验表明,与单个方法相比,该方法能够显著提高分类性能,且具有更为均衡的准确率和召回率。3.提出了一种融合浅层句法分析的蛋白质互作用信息抽取方法。生物文本中复杂的语法结构导致信息抽取性能低下。本方法在信息抽取前,对输入句子集合进行语块划分、同位语分析、并列结构分析、从句分析的处理,从而将待分类的蛋白质对的实例划分到不同的语法单位中。语法单位的划分能够限定蛋白质对的搜索范围,提高分类的准确性。实验表明,与传统基于机器学习的方法相比,该方法能显著提升F1值10%以上。4.将基于词特征的方法和自动模式学习方法进行联合训练,并提出一种基于k-最近邻算法(kNN)的实例自动标注方法。在已标注样本缺乏情况下,应用联合训练框架,词特征方法和模式学习方法能够互相学习,互为补充。基于kNN,通过将不同样本中的蛋白质对文本的序列比对分值定义为距离值,使未标注样本得以自动标注。实验表明,在初始标注样本数较少的情况下,上述两种方法均能有效利用未标注样本,显著提高信息抽取性能。