基于深度学习和语言模型的细菌命名实体识别算法研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:efanest
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
细菌之间的交互网络与人体健康以及生态环境之间存在着紧密联系。医学文献中蕴含着大量细菌相互作用关系,如果将这些交互关系提取出来整理成一个知识库将是一个具有价值的工作。文本挖掘技术为上述问题提供了一种可行性方案,其包含命名实体识别和关系抽取两大核心任务,而细菌命名实体识别是相互作用关系抽取的关键性步骤。细菌命名实体具有自身的特点,如新实体不断出现、一词多义、大量实体嵌套现象等,这些特性使得细菌命名实体识别成为一项具有挑战性的任务。本文针对此问题,研究了一种基于混合深度学习及语言模型的细菌命名实体识别方法,并在实验数据集上验证了模型的识别效果。主要研究工作和贡献如下:首先,提出了一种基于混合深度学习的细菌命名实体识别框架。基于机器学习的命名实体识别方法需要人工设计特征,然后进行抽取特征以及特征选择,同时抽取的特征普适性差。针对上述问题,本文提出了一种结合卷积神经网络(CNN)、长短期记忆网络(LSTM)以及条件随机场(CRF)的混合深度学习框架(HDL-CRF)用于细菌命名实体识别。这是一个端到端的深度学习模型,无需复杂的特征抽取,在实验结果上取得了良好的结果。其次,提出了一种基于语言模型的细菌命名实体识别方法。词的语义是随着上下文环境变化的,但是深度学习利用词向量模型将文本转化为向量用于模型输入,对于每一个单词都有固定的向量表示,会带来训练误差。针对此问题,本文提出了一种基于语言模型的细菌命名实体识别方法,可以利用大规模未标记语料学习到不同上下文中的单词表示,它是一个动态的词向量表示方法,可以更好地理解单词在不同语境下的词义表示。本文利用预训练的BERT语言模型学习单词的上下文表示,然后利用双向长短期记忆网络进行特征抽取,最后利用条件随机场进行标签预测。实验结果表明语言模型比深度学习模型更好地表示了单词之间的语义信息,在细菌实体识别任务上也取得了更好的表现。本文提出的细菌命名实体识别方法,具有良好的性能,可以在大规模医学文本中快速而有效地识别出细菌实体,这为后面的细菌相互作用抽取奠定了良好的基础。
其他文献
近年来,机器学习技术在计算机各领域中应用的更加广泛和更加成熟,在图像处理,自然语言处理和个性化推荐等众多领域展现出了巨大的优势,并且仍在以一种迅猛的势头向前发展着。
作为一种性能优异的储能设备,超级电容器不仅逐渐占据了一定的市场,在未来也必将有很大的发展前途。本文均以菲作为碳源,采用模板法协同物理和化学活化法可控合成高性能的多
随着现代科学与技术的不断进步和发展,人们对通信质量的要求越来越高。而光纤通信的问世,使通信领域发生了重大的变革。光通信具有低损耗、抗干扰能力强等优点,因此引起越来
随着科技的发展,传统的优化算法求解最优问题存在局限性,智能优化算法给优化问题的求解提供了新思路。粒子群算法是模拟生物群体行为的一种随机智能算法,与传统优化算法相比,
量子保密通信主要包括量子密钥分配(Quantum Key Distribution,QKD)生成的安全密钥和"一次一密"经典通信两个部分。在"一次一密"的经典通信中使用的密钥就是由QKD生成的安全
多目标跟踪(Multi-Target Tracking,MTT)技术一直是跟踪领域的一个重要课题。随机有限集(Random Finite Set,RFS)的发展促进了基于RFS跟踪算法的研究。其中,概率假设密度(Pro
随着我国氧碘化学激光器输出能量不断提高,因此改善光束质量成为迫切需要。目前限制光束质量的主要因素之一是出光过程中的光腔失调,因此针对该问题提出了氧碘化学激光光学谐
电子鼻是模拟生物嗅觉器官进行气体识别的电子技术,利用气体传感阵列、信号预处理单元和模式识别单元实现嗅觉感知,重复性好且能避免人为误差。但受核心传感单元(气体传感阵列
互联网技术的飞速发展,使得人类社会已经进入信息爆炸的大数据时代,从海量的信息数据中快速获取对自己有价值的信息成为研究难题。个性化推荐能够以用户的行为数据为依据,挖
我国各区域间的发展差距较大,实现区域协调发展的重要性在十九大报告中上升到一个新高度。寻求区域协调发展意味着要促进要素在空间上的再配置以及产业布局的变化。而新经济