论文部分内容阅读
细菌之间的交互网络与人体健康以及生态环境之间存在着紧密联系。医学文献中蕴含着大量细菌相互作用关系,如果将这些交互关系提取出来整理成一个知识库将是一个具有价值的工作。文本挖掘技术为上述问题提供了一种可行性方案,其包含命名实体识别和关系抽取两大核心任务,而细菌命名实体识别是相互作用关系抽取的关键性步骤。细菌命名实体具有自身的特点,如新实体不断出现、一词多义、大量实体嵌套现象等,这些特性使得细菌命名实体识别成为一项具有挑战性的任务。本文针对此问题,研究了一种基于混合深度学习及语言模型的细菌命名实体识别方法,并在实验数据集上验证了模型的识别效果。主要研究工作和贡献如下:首先,提出了一种基于混合深度学习的细菌命名实体识别框架。基于机器学习的命名实体识别方法需要人工设计特征,然后进行抽取特征以及特征选择,同时抽取的特征普适性差。针对上述问题,本文提出了一种结合卷积神经网络(CNN)、长短期记忆网络(LSTM)以及条件随机场(CRF)的混合深度学习框架(HDL-CRF)用于细菌命名实体识别。这是一个端到端的深度学习模型,无需复杂的特征抽取,在实验结果上取得了良好的结果。其次,提出了一种基于语言模型的细菌命名实体识别方法。词的语义是随着上下文环境变化的,但是深度学习利用词向量模型将文本转化为向量用于模型输入,对于每一个单词都有固定的向量表示,会带来训练误差。针对此问题,本文提出了一种基于语言模型的细菌命名实体识别方法,可以利用大规模未标记语料学习到不同上下文中的单词表示,它是一个动态的词向量表示方法,可以更好地理解单词在不同语境下的词义表示。本文利用预训练的BERT语言模型学习单词的上下文表示,然后利用双向长短期记忆网络进行特征抽取,最后利用条件随机场进行标签预测。实验结果表明语言模型比深度学习模型更好地表示了单词之间的语义信息,在细菌实体识别任务上也取得了更好的表现。本文提出的细菌命名实体识别方法,具有良好的性能,可以在大规模医学文本中快速而有效地识别出细菌实体,这为后面的细菌相互作用抽取奠定了良好的基础。