论文部分内容阅读
实体链接,即是将抽取出的命名实体规范化,将其变成标准形式并链接到知识库对应实体的过程。具体而言,由于文本中的实体可能以多种形式存在,单纯依靠实体抽取技术并不能直接在知识库中找到对应的实体。因此,开展对实体链接技术的研究就成了迫在眉睫的事情。 目前的实体链接技术多种多样,主要可分为无监督的依靠字典或相似度的实体链接方法和有监督的基于机器学习的实体链接方法。当数据中仅包含实体本身,无其他多余信息时,问题转化为单实体链接问题,传统方法是使用匹配或文本相似度进行链接;而当数据中实体不规范形式复杂时,此时需要结合额外信息,使用机器学习方法进行链接。本文主要研究在特定领域内,针对不同的数据特点如何准确高效的进行实体链接。针对医疗领域数据知识库规模小,实体不规范形式较为单一且有迹可循的特点,将实体链接任务置于检索的框架内,通过构建多字段索引项完成实体的规范化,进而完成实体链接工作;而影视领域中数据来源于网络,不规范形式复杂,且知识库庞大。对此类较为复杂的实体,将实体链接任务分为两个步骤,首先使用多层次筛模式选出待链接实体的候选实体集合,过滤掉知识库中的无关实体,再使用基于卷积神经网络的学习排序方法进行排序,选出相关度最高的结果来作为最后的链接结果。 为了验证本文提出方法的有效性,本文选取医疗领域中国内某医院泌尿外科临床手术数据集和国内某三甲医院临床门诊数据集以及影视领域中CCKS2016(限定领域实体发现与链接)任务的数据集进行实验。在某医院泌尿外科手术数据集和三甲医院的门诊数据集上,使用本文提出的基于多字段索引检索的方法进行实验,该实体链接方法分别达到了66.2%和91.0%的准确率,在门诊数据集中以疾病名为单位的标准化结果为67.6%,明显高于传统的基于编辑距离的实体链接方法。而在CCKS影视数据集上,本文使用的多层次筛模式结合卷积神经网络的实体链接方法也优于传统机器学习方法,达到了73.6%的准确率。