论文部分内容阅读
生物医学文本信息抽取是生物医学研究中不可缺少的环节,有关生物医学的最新信息大部分以文献的形式存在,随着统计学习技术和自然语言处理技术的发展,采用归纳统计的方法从文本中发现知识已经成为可能。因此采用信息抽取技术从生物医学文献发现生物医学知识是急需和有效的方法。 近年来生物医学文本信息抽取已经取得了一定的成果,但是与新闻领域同类工作相比,平均性能相差近20个百分点。生物医学领域的文本信息抽取任务很富有挑战性,主要是由生物医学领域文本的特点决定的。目前现有成果距离真正实用还有一定距离,其中最主要的问题就是识别的精确率和召回率还有待提高,尚不能满足实用化的要求。本文以提高生物医学文本信息抽取的性能作为目标,寻求新的识别策略,为推进生物医学文本信息抽取的实用化做出贡献。本文研究从如下几个方面展开: 1.研究了基于单分类器的生物医学命名实体识别方法。该方法针对生物医学命名实体特点选择了丰富有效的特征集合,包括局部特征、全文特征和外部资源特征,提高了学习模型的学习性能。为了进一步提高系统的性能,本文还引入了缩写词识别、嵌套识别、边界扩展和过滤器等后处理过程,从多方面结合多个策略来提高生物医学命名实体的识别性能。 2.提出了基于元学习策略的多分类器融合模型,包括同态元学习模型和异态元学习模型识别生物医学命名实体。同态元学习模型采用了bag-stacking模型并提出了将基分类器输出的分类的置信度作为元分类器的输入的一项特征来提高系统的性能。异态元学习模型使用两种元学习策略包括叠加归纳法和级联归纳法融合了四种不同的学习模型。实验结果表明该模型能够充分利用不同分类器识别能力之间的互补性和相关性以及多个层次的特征来提高整体识别性能。同时,打破了单一学习模型不能覆盖生物医学命名实体的所有特点,只能借助丰富的特征选择和有效的后处理过程来提高系统性能的局限性,取得了比单分类器更好的识别结果。 3.提出了基于多Agent系统学习的生物医学命名实体识别方法。探索了将多 Agent系统学习方法引入到生物医学命名实体识别中,以提高生物医学命名实体的识别性能,包括基于多Agent元学习框架和基于决策共现矩阵的多Agent融合策略,实验结果证明多 Agent系统学习是一种有效的生物医学命名实体的识别方法,其中面向生物医学命名实体识别的多 Agent元学习框架解决了语料分配不平衡的问题,提高了小类别和难识别类别的性能。 4.研究了基于元学习策略的分类器融合方法在蛋白质相互作用关系识别中的应用。该研究的主要目的是通过分析蛋白质相互作用关系的特点,选择有效的特征集合,包括浅层语言学特征和深层句法特征,并选择合适的学习模型来提高蛋白质相互作用关系识别的性能;并在此基础上提出了基于元学习策略的分类器融合方法,将基于浅层语言学特征模型和基于深层句法特征模型融合在一起,充分利用了基于不同特征模型学习结果之间的互补性和相关性,进一步提高了蛋白质相互作用关系识别的性能。 本文主要贡献在于将多种统计学习方法应用于生物医学信息抽取领域,对该领域中命名实体识别任务作了深入探索。提出了结合丰富领域特征、融合多个后处理模块的基于统计学习的生物医学命名实体识别方法;将基于元学习的多分类器融合策略引入生物医学命名实体识别研究;将多 Agent系统学习引入到生物医学命名实体识别研究;提出了一种融合生物医学文本浅层语言学特征和深层句法特征的蛋白质相互作用关系识别方法。总体来说,本文在应用统计学习方法进行生物医学文本信息抽取方法作了广泛深入的探索,取得了较好的结果。这些研究对于文本信息处理领域的同类研究具有参考价值。同时,将有助于医学研究人员对生命的探索、疑难病理的研究、有效药物的开发等。