面向生物医学领域的命名实体识别技术研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:dfddfasfafjdkjfkekjk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,命名实体识别在生物医学领域备受关注。生物医学领域专家现有获取文献信息的方式难以跟上生物医学文献增长的速度。因此,对文本挖掘方法提出更高要求。文本挖掘的一项基本和重要任务是命名实体识别。生物医学命名实体识别旨在从生物医学文本中识别并标注出特定类型的实体,如:基因、疾病和化学物等。进而为信息抽取和问答系统等后续工作提供先决条件。与一般命名实体识别相比,生物医学命名实体识别更具挑战性和潜在的研究空间。本文对生物医学命名实体识别的研究工作主要包括以下两个部分:(1)基于语境化胶囊网络的生物医学命名实体识别。由于数据的稀疏性,生物医学文本中存在大量的稀有和罕见的实体,缺乏足够的训练实例和对稀有和罕见的实体的信息缺乏阻碍了生物医学实体识别的性能的进一步提升。针对这一问题,论文提出了语境化胶囊网络的生物医学命名实体识别方法。该方法将语境上下文融合到胶囊网络中,以动态捕获和利用目标实体的上下文信息。相比基准模型,本文的方法取得了竞争性结果,分别在BC5CDR-disease和BC5CDR-chemical数据集上获得了86.58%和93.70%F1值。(2)融合句法信息的图卷积神经网络生物医学命名实体识别。当前的命名实体识别方法将文本理解为输入向量的一维集合,忽略了实体之间的依存关系和层次结构信息。句法依赖能够潜在的推理特定命名实体的存在。基于此,本文提出融合句法信息的图卷积神经网络生物医学命名实体识别。具体地,文本中的每个单词被看做一个节点,节点之间的边通过句法树被构造,实体的内部结构信息使用图卷积神经网络被捕捉。模型在标准数据集上进行评估,其结果证明了提出的方法能够有效的捕捉实体结构信息,相比基准模型大约有1%F1值的提升。
其他文献
刑事搜查作为一种强制性侦查行为,在实践中应用十分广泛,其在收集犯罪证据、抓捕犯罪嫌疑人方面发挥着重要作用,但是,在各国普遍奉行国家追诉原则的当代,刑事搜查作为侦查机
无线通信技术的发展日新月异,导致日益增加的频谱需求和有限的频谱资源之间产生了巨大的冲突,提高频谱资源利用率刻不容缓。因此认知无线电技术应运而生,它可以允许次用户动
本文从美国证券交易委员会奖励摩根大通联合举报人巨额奖金案和沃特金斯举报安然招致报复案引出关于研究证券举报人奖励与保护法律制度的必要性。我国证券举报人奖励与保护法
目前,由于先进的增材制造理念和许多领域潜在的革命性应用,3D打印技术已成为世界上最具吸引力的研究热点之一。金属氧化物材料和3D打印技术的结合使得制造具有可控宏观/微观
《中国英语能力等级量表》为国内各种英语考试提供了科学的能力测评标准,同时,也对统一我国英语测试的难度标准和建立分级题库提出了新的要求。阅读能力测试是我国英语测试体
社交媒体的发展为我们的生活带来了种种便利,也推进了信息时代电子商务的升级转型。在主流的电商平台中,商品评论为消费者提供了一个了解商品属性的途径和方式,由于商业利益
轨道角动量(Orbital Angular Momentum,OAM)作为电磁辐射的组成部分,因其物理正交特性为无线资源的紧缺提供了新的自由度,而引起了广泛的关注。多模态OAM-MIMO复用通信系统能
太赫兹(THz)波的频率范围是0.1-10 THz,在电磁波谱中位于毫米波和红外波段之间,其具有的独特的性质使其在生物检测、通信和公共安全系统等领域具有广阔的应用前景,但长期以来
随着我国进入人、物、网络紧密互通的大数据时代,各行各业的人员结合大数据根据业务需求通过自主构建数据模型,以可视化图表方式展示数据汇总分析的结果。然而数据模型所使用
近年来,2-炔基苯甲醛作为一种分子内同时含有醛基和炔基的底物,在合成方面具有重要用途。它可以与氨基化合物或肼反应,构筑喹啉、异喹啉、吡嗪等各类杂环化合物,从而获得一些