论文部分内容阅读
随着社会的信息化进程,人们对自然语言语义理解系统的需求越来越迫切。目前基于命名实体的研究成为了语义研究的热点。本文研究了中文短文本的命名实体识别(NER)和实体链接(EL),考虑这两个任务的相关性,采用了联合处理这两个任务的方式。实体识别和链接是文本分析的基本任务,是许多自然语言任务的基础支撑模块。现有方法大多使用pipeline模式执行这两个任务。通常先使用一个NER系统寻找命名实体的边界,然后使用一个EL系统关联命名实体到具体的知识库条目。在这样的模式下NER系统的错误往往会传递到EL系统中,且EL系统缺乏足够的信息纠正错误。这种模式在长文本上可能合适,因为现有的实体识别系统在足够的训练语料和足够理想的上下文情况下表现良好。但当我们处理短文本的时候,这种模式下的NER系统对最终实体识别和链接的结果产生了不利影响。为了解决此类在短文本实体识别和链接任务上的错误传播问题,我们基于两个任务之间的耦合关系及潜在可能的互促进效应,提出了2个联合处理NER和EL任务的模型,分别是线性模型和基于半条件随机场的模型。研究者们一般视NER为一个序列标注问题,EL任务为实体排序问题。我们的线性模型视NER和EL任务为排序问题。它生成尽可能多的候选“实体指称和实体对”,并对其进行排序,选择最合适的“实体指称和实体对”。我们基于半条件随机场的联合模型处理的是序列标注问题,在标注其“实体指称”时,尽可能多的使用实体相关的特征。在联合处理实体识别和链接的情况下,我们可用的特征较分别处理识别和链接更加丰富。在NLPCC2015提供的数据上的实验表明,我们的方法对于中文短文本识别和链接任务是有效的。