基于统计学习的生物医学文本信息抽取方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zhxsmg88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物医学文本信息抽取是生物医学研究中不可缺少的环节,有关生物医学的最新信息大部分以文献的形式存在,随着统计学习技术和自然语言处理技术的发展,采用归纳统计的方法从文本中发现知识已经成为可能。因此采用信息抽取技术从生物医学文献发现生物医学知识是急需和有效的方法。  近年来生物医学文本信息抽取已经取得了一定的成果,但是与新闻领域同类工作相比,平均性能相差近20个百分点。生物医学领域的文本信息抽取任务很富有挑战性,主要是由生物医学领域文本的特点决定的。目前现有成果距离真正实用还有一定距离,其中最主要的问题就是识别的精确率和召回率还有待提高,尚不能满足实用化的要求。本文以提高生物医学文本信息抽取的性能作为目标,寻求新的识别策略,为推进生物医学文本信息抽取的实用化做出贡献。本文研究从如下几个方面展开:  1.研究了基于单分类器的生物医学命名实体识别方法。该方法针对生物医学命名实体特点选择了丰富有效的特征集合,包括局部特征、全文特征和外部资源特征,提高了学习模型的学习性能。为了进一步提高系统的性能,本文还引入了缩写词识别、嵌套识别、边界扩展和过滤器等后处理过程,从多方面结合多个策略来提高生物医学命名实体的识别性能。  2.提出了基于元学习策略的多分类器融合模型,包括同态元学习模型和异态元学习模型识别生物医学命名实体。同态元学习模型采用了bag-stacking模型并提出了将基分类器输出的分类的置信度作为元分类器的输入的一项特征来提高系统的性能。异态元学习模型使用两种元学习策略包括叠加归纳法和级联归纳法融合了四种不同的学习模型。实验结果表明该模型能够充分利用不同分类器识别能力之间的互补性和相关性以及多个层次的特征来提高整体识别性能。同时,打破了单一学习模型不能覆盖生物医学命名实体的所有特点,只能借助丰富的特征选择和有效的后处理过程来提高系统性能的局限性,取得了比单分类器更好的识别结果。  3.提出了基于多Agent系统学习的生物医学命名实体识别方法。探索了将多 Agent系统学习方法引入到生物医学命名实体识别中,以提高生物医学命名实体的识别性能,包括基于多Agent元学习框架和基于决策共现矩阵的多Agent融合策略,实验结果证明多 Agent系统学习是一种有效的生物医学命名实体的识别方法,其中面向生物医学命名实体识别的多 Agent元学习框架解决了语料分配不平衡的问题,提高了小类别和难识别类别的性能。  4.研究了基于元学习策略的分类器融合方法在蛋白质相互作用关系识别中的应用。该研究的主要目的是通过分析蛋白质相互作用关系的特点,选择有效的特征集合,包括浅层语言学特征和深层句法特征,并选择合适的学习模型来提高蛋白质相互作用关系识别的性能;并在此基础上提出了基于元学习策略的分类器融合方法,将基于浅层语言学特征模型和基于深层句法特征模型融合在一起,充分利用了基于不同特征模型学习结果之间的互补性和相关性,进一步提高了蛋白质相互作用关系识别的性能。  本文主要贡献在于将多种统计学习方法应用于生物医学信息抽取领域,对该领域中命名实体识别任务作了深入探索。提出了结合丰富领域特征、融合多个后处理模块的基于统计学习的生物医学命名实体识别方法;将基于元学习的多分类器融合策略引入生物医学命名实体识别研究;将多 Agent系统学习引入到生物医学命名实体识别研究;提出了一种融合生物医学文本浅层语言学特征和深层句法特征的蛋白质相互作用关系识别方法。总体来说,本文在应用统计学习方法进行生物医学文本信息抽取方法作了广泛深入的探索,取得了较好的结果。这些研究对于文本信息处理领域的同类研究具有参考价值。同时,将有助于医学研究人员对生命的探索、疑难病理的研究、有效药物的开发等。
其他文献
文本分类和聚类技术是应信息检索和查询需要而出现的自然语言处理领域的重要研究课题。面对急速膨胀的各种文本信息,通过使用文本分类和聚类技术,人们能对这些信息进行高效地组
Ontology(本体论)最早是哲学上的一个概念。20世纪90年代起,人们将本体的概念引入人工智能、知识工程、图书情报和信息系统领域,从而是本体概念的内涵也随之发生了变化。近年
汽车是人们常用的交通工具,在长期使用过程中会产生故障。由于汽车本身结构的复杂性,以及汽车故障的不确定性和模糊性,给汽车故障的诊断与维修带来很大困难。随着汽车数量的
随着计算机与互联网的广泛普及,语言信息处理的社会需求日益增大,人们迫切需要用自动化的手段处理海量的语言信息。在这种情形下,作为智能化人机接口重要组成部分的汉字键盘
软件产品交付使用以后,为了保持稳定运行并适应新的要求,必须进行维护。在维护的过程中,为了提高软件可维护性并延长软件寿命,需要引进新的技术方法作预防性维护。重构是预防
使用计算机对医学影像进行处理与分析,从而辅助医生进行更准确的诊断,这一技术越来越受到人们的重视,涌现出大量的医学影像处理系统,其规模和复杂度不断增加,使得传统的软件
近年来,随着SARS以及其他公共卫生突发事件的频繁发生,建立公共卫生突发事件应急指挥系统(以下简称公共卫生应急指挥系统)已经成为各国政府应对公共卫生突发事件的主要策略。目
Web日志记录了用户对Web站点访问信息,保存有大量的路径信息,对这类信息的分析有利于网站设计人员掌握用户的喜好和访问习惯,并可以为网站的结构优化和页面重组提供帮助。日
SIP是一个应用前景十分广阔的协议,在许多领域已经或者正在发挥重要的作用。在多媒体会议、IP电话方面的应用已经从实验室走向市场并逐步趋于成熟,而在3G、网络控制、便携电缆
目前,传统BIOS的接替者可扩展固件接口EFI和双核处理器技术的发展非常迅速,取得了许多重要的成果,但仍有许多问题可以供我们研究。同时,随着信息技术的飞速发展和计算机的日