论文部分内容阅读
本文主要研究了对象检索中的实体信息扩展算法,现如今对于信息的需求已经逐渐从较为模糊的网页检索演进为对象检索,带动实体信息抽取成为最核心的技术之一,而实体信息扩展则是实体信息抽取技术中一个重要的部分。实体信息抽取的目的在于自动生成包含实体相关属性信息的实体知识库。本文研究的实体信息查询扩展的目的:一是扩充实体查询词信息,在查询词信息不完备的条件下,对实体查询词进行信息扩充,消除查询词歧义,明确查询意图;二是实现针对实体别称等共指信息的扩展,从而将共同指向的不同实体之间的信息得以合并共享。本文的主要工作如下:首先,将对象检索与传统的信息检索进行了分析对比,重点分析了实体信息扩展和传统查询扩展在预处理、词项选择、相关度计算、及匹配方法上的区别和联系,并在此基础上确定了本文的主要研究课题,即基于统计学习的实体信息扩展,以及基于语法规则的实体信息扩展。其次,针对与实体相关度高的词项扩展问题,本文提出了一种基于概率统计的实体信息扩展方法,利用相关反馈技术,结合层次聚类算法,在相关文档集内对实体与词项进行共现相关度挖掘,实现对实体描述信息的扩展。基于该模型,对两千余个实体进行了相关词项扩展,并应用在TREC2012Microblog评测任务中,结果验证了该模型的有效性。最后,针对实体别称、同义词、身份描述等信息,本文研究给出了一种基于语法规则的实体信息扩展方法,通过词法分析预处理,根据针对共指表述的语法特征,对实体表述进行共指消解,实现实体别称等信息的扩展。利用该模型,在TAC2012KBP中的两个子任务中获得良好效果,验证了该模型的有效性。