特定领域实体链接系统的设计与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:qjesen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体链接,即是将抽取出的命名实体规范化,将其变成标准形式并链接到知识库对应实体的过程。具体而言,由于文本中的实体可能以多种形式存在,单纯依靠实体抽取技术并不能直接在知识库中找到对应的实体。因此,开展对实体链接技术的研究就成了迫在眉睫的事情。  目前的实体链接技术多种多样,主要可分为无监督的依靠字典或相似度的实体链接方法和有监督的基于机器学习的实体链接方法。当数据中仅包含实体本身,无其他多余信息时,问题转化为单实体链接问题,传统方法是使用匹配或文本相似度进行链接;而当数据中实体不规范形式复杂时,此时需要结合额外信息,使用机器学习方法进行链接。本文主要研究在特定领域内,针对不同的数据特点如何准确高效的进行实体链接。针对医疗领域数据知识库规模小,实体不规范形式较为单一且有迹可循的特点,将实体链接任务置于检索的框架内,通过构建多字段索引项完成实体的规范化,进而完成实体链接工作;而影视领域中数据来源于网络,不规范形式复杂,且知识库庞大。对此类较为复杂的实体,将实体链接任务分为两个步骤,首先使用多层次筛模式选出待链接实体的候选实体集合,过滤掉知识库中的无关实体,再使用基于卷积神经网络的学习排序方法进行排序,选出相关度最高的结果来作为最后的链接结果。  为了验证本文提出方法的有效性,本文选取医疗领域中国内某医院泌尿外科临床手术数据集和国内某三甲医院临床门诊数据集以及影视领域中CCKS2016(限定领域实体发现与链接)任务的数据集进行实验。在某医院泌尿外科手术数据集和三甲医院的门诊数据集上,使用本文提出的基于多字段索引检索的方法进行实验,该实体链接方法分别达到了66.2%和91.0%的准确率,在门诊数据集中以疾病名为单位的标准化结果为67.6%,明显高于传统的基于编辑距离的实体链接方法。而在CCKS影视数据集上,本文使用的多层次筛模式结合卷积神经网络的实体链接方法也优于传统机器学习方法,达到了73.6%的准确率。
其他文献
随着计算机技术、通讯技术相结合的信息时代的快速发展和互联网的广泛应用,3C(Computer、Communication、Consumer Electronics)合一的趋势已经形成,其结果必然就是将计算机
在一个企业的日常活动中,大多数活动都属于流程活动,比如生产过程,各种各样的应用格式,文件签名或批准,定单或运输事务,开支应用和支付等等。‘工作流’是指由一个工作组内的
国际互联网的高速发展、信息系统的深入应用和信息技术的不断更新在给人们带来工作、学习和生活上的便利和效率的同时,也引出了诸如网络犯罪、系统攻击和破坏、电脑病毒等新
  本文在分析了现有入侵检测技术基础上,主要对Linux下基于系统调用序列的服务程序异常检测进行了研究,提出了用数据挖掘的方法建立程序的正常调用序列模式库,在此基础上实现
  随着电子商务在全球的迅猛发展,电子商务的安全问题日益受到人们的关注。安全的电子商务协议是确保电子商务活动可靠开展的基础,而安全协议的形式化分析逻辑则是检验协议是
本文首先介绍了纹理合成技术的发展,全面分析了目前纹理合成领域所面临的问题,总结了纹理合成技术,并对各种方法的纹理合成进行了详细的分析和研究。从合成质量的角度对现有基
互联网经过几十年的发展,已经深刻影响人们的生活与工作方式。但网络用户数量的不断增加,新的网络业务大量涌现,使得传统面向业务的网络体系架构难以适应互联网发展需要,以构件化
网络配置管理是网络管理系统的一个功能域,它负责监控和管理整个网络的配置状态,提供数据、拓扑自动发现、通讯等服务,是其它各管理功能的基础。本文在NGOSS思想指导下,采用W
随着网络的迅速发展,网络的服务质量(QoS)保证成为当前网络研究的热点问题。主动队列管理和区分服务网的流量控制策略都是IPQoS的重要内容。 本文首先从理论和模拟实验两
快速发展的三维显示技术和高性能网络,使协同虚拟环境步入了快速发展的阶段,越来越多的用户在协同虚拟环境进行交互合作。几年来无线通讯高速发展,多功能,高性能的移动设备不断涌