中文短文本实体识别和链接研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:jimmyreagan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的信息化进程,人们对自然语言语义理解系统的需求越来越迫切。目前基于命名实体的研究成为了语义研究的热点。本文研究了中文短文本的命名实体识别(NER)和实体链接(EL),考虑这两个任务的相关性,采用了联合处理这两个任务的方式。实体识别和链接是文本分析的基本任务,是许多自然语言任务的基础支撑模块。现有方法大多使用pipeline模式执行这两个任务。通常先使用一个NER系统寻找命名实体的边界,然后使用一个EL系统关联命名实体到具体的知识库条目。在这样的模式下NER系统的错误往往会传递到EL系统中,且EL系统缺乏足够的信息纠正错误。这种模式在长文本上可能合适,因为现有的实体识别系统在足够的训练语料和足够理想的上下文情况下表现良好。但当我们处理短文本的时候,这种模式下的NER系统对最终实体识别和链接的结果产生了不利影响。为了解决此类在短文本实体识别和链接任务上的错误传播问题,我们基于两个任务之间的耦合关系及潜在可能的互促进效应,提出了2个联合处理NER和EL任务的模型,分别是线性模型和基于半条件随机场的模型。研究者们一般视NER为一个序列标注问题,EL任务为实体排序问题。我们的线性模型视NER和EL任务为排序问题。它生成尽可能多的候选“实体指称和实体对”,并对其进行排序,选择最合适的“实体指称和实体对”。我们基于半条件随机场的联合模型处理的是序列标注问题,在标注其“实体指称”时,尽可能多的使用实体相关的特征。在联合处理实体识别和链接的情况下,我们可用的特征较分别处理识别和链接更加丰富。在NLPCC2015提供的数据上的实验表明,我们的方法对于中文短文本识别和链接任务是有效的。
其他文献
结构模态参数的获取对结构响应分析、状态监测、振动控制有着非常重要的意义。在桥梁健康监测领域,基于环境激励的随机子空间方法是模态参数识别中最先进的方法之一。基于参
超宽薄壁箱梁较常规箱梁结构受力更加复杂,具有明显的空间效应。文中以佛山一环某超宽薄壁三跨连续斜交箱梁桥为工程背景,分别采用杆系单梁法、空间梁格法及 ANSYS 实体有限
<正> 美朝在10月21日达成的关于朝鲜核问题的框架协议中谈到,美国将帮助朝鲜建造两座轻水反应堆以代替朝鲜的石墨反应堆;朝鲜则在协议生效后立即冻结其核计划,并同意在援建的
改革开放以来,高校思想政治教育话语体系发生了深刻而复杂的变革,这是多种因素共同作用的结果。高校思想政治教育话语体系的内在矛盾是推动变革的原始动力.高校思想政治教育话语
一、研究的背景与问题提出工业部门的发展在中国新型工业化进程中具有举足轻重的作用.改革开放以来,我国工业部门一直保持快速的增长速度,但在这快速增长的背后,却存在资本投
为了开发甲苯液相氧化的新催化体系,寻求合适的反应条件提高甲苯选择性氧化生成苯甲醛、苯甲醇的选择性。以分子氧为氧源,在无溶剂条件下,采用N-羟基邻苯二甲酰亚胺(NHPI)与双水杨
在探讨高职学生职业能力开发模式时,既要古为今用,努力汲取黄炎培“做学合一”思想,也要洋为中用,善于借鉴德国“行动导向教学法”。从如下三个方面加以尝试:一、从条件、制度、督
那种“就让学生去搞吧,我们不管”的说法,有时是放手,有时就是犯懒,其区分标准就是陪伴与否。$$体验,不可缺$$搞活动与学习成绩并不是非此即彼的零和关系。$$我能够理解很多老师和
报纸