论文部分内容阅读
蛋白质关系抽取和药物关系抽取对于生物医学领域相关数据库的构建、生命科学研究、药物开发和疾病的防治都具有重要意义。目前,大量生物医学关系抽取方法的研究重点在于特征集合的选取和核函数的设计,经过十余年的发展,基于特征和核函数的方法已经相对成熟,提升空间变得有限。为了进一步提升性能,本文研究基于词表示和深度学习的抽取方法。深度学习能够建立更深层的关系抽取模型以提升抽取效果,而词表示将语义信息融合到词向量中,是深度学习的前提。本文主要贡献包括:针对生物医学领域文本的特点设计词表示模型,在传统词表示模型基础上,融合词形、词性、词干、句法块、生物医学命名实体这五类重要信息,增强词向量的语义表示能力,并在蛋白质关系抽取、药物关系抽取等任务上取得了较好的效果,验证了在词表示中融入词性、实体等丰富信息的有效性,为基于深度学习的关系抽取方法提供了良好的词表示基础。针对蛋白质二类关系抽取问题,克服传统方法依赖于特征和核函数的局限性,提出一种基于实例表示的抽取模型,该模型包含词向量、骨架特征、特征组合三个部分,在规模较大的语料上抽取效果达到了目前先进水平,从而验证了基于词表示和深度学习方法在蛋白质关系抽取问题上的有效性。该模型考虑了蛋白质关系实例的特点,以词向量作为输入,配合骨架特征和向量组合,从而在实例表示中融合丰富的语义信息。针对药物多类关系抽取问题,提出一种两阶段方法:在第一阶段,采用实例表示与句法特征相结合的方法,利用逻辑回归分类器,识别出药物关系正例;在第二阶段,利用长短期记忆网络将正例分成四种药物关系类型。为了提升第二阶段性能,从重要度、实现代价和计算代价这三个方面考虑了多种相关要素对长短期记忆网络的影响,通过实验发现,词向量、距离向量、词性向量和双层双向长短期记忆网络对于第二阶段分类的性能具有提升作用,也是本文两阶段药物关系抽取方法能够取得较好效果的重要因素。综上所述,本文针对蛋白质间二分类关系抽取和药物间多分类关系抽取,利用表示和深度学习等技术提出相应的抽取方法,在一定程度上克服了基于特征和核函数方法的局限性,取得了较好的效果。词表示和深度学习技术是近年来的研究热点,在生物医学文本挖掘领域的起步较晚,本文所提出的方法在生物医学关系抽取任务上取得了一定成果,验证了其有效性,并揭示了基于词表示和深度学习方法在生物医学文本挖掘领域具有广阔的研究空间,值得在未来工作中继续探索。