论文部分内容阅读
自然语言中共指现象非常普遍。一个真实世界中的实体在自然语言中出现的时候,往往会有多种多样的表达。虽然人们可以毫无困难的区分文章中同一实体的不同体现,但对计算机而言仍是非常困难的。共指消解就是根据文档中各个表述的自身内容以及所在上下文来确定不同实体的数量,以及确定各个实体分别包含哪些等价的表述。共指消解一直是自然语言处理中的核心问题,在机器翻译、信息抽取、自动文摘以及自动问答等领域中都有重要应用。 共指消解本身是一个非常复杂的问题,需要考虑的问题和因素有很多。共指消解的本质是等价类划分。根据对划分过程的影响和处理策略,本文针对共指消解研究中多个层面的问题进行了深入的研究,主要是在一些共性的问题上进行了探索。 首先,传统的基于二元分类的共指消解方法中特征挖掘非常重要,在既有算法框架中需要发掘并融合新的特征来增加相关约束并最终提高系统性能。本文在二元分类框架上进行相关的特征挖掘,在传统特征的基础上,融合多种背景语义特征,并提出基于维基百科的上下文特征,随后采用特征选择算法筛选出有效特征。实验结果表明,这种方法将系统性能提高了5%。同时,将英文共指消解算法移植到中文上时,关键问题是中文人称名词短语的单复数特征的自动识别。在大量总结规则和提取三维特征的基础上,该特征的识别可以达到很好的性能,其中基于规则的方法可以保证结果的精确率,但是整体而言,基于机器学习的方法更加实用。 其次,基于分类方法的共指消解已经经过十多年的发展,现在一些研究人员采用实体-表述模型来突破以往的二元分类框架中只能考虑局部信息的限制。这种模型在算法性能上虽然得到了一定的提高,但是由于共指现象的特点以及既有实体-表述模型在特征表示上的不足,需要采用更好的知识表示方案和相应的学习算法。本文提出基于一阶谓词逻辑的实体-表述模型,并采用归纳逻辑编程自动学习共指消解的相关规则。实验结果表明,最终的实验性能比最好的实体-表述模型有所提高,归纳逻辑编程对共指消解而言是一种有效的方案。 接着,基于有指导方法的共指消解缺少足够的训练语料,需要开展无指导的共指消解方法。以往的聚类算法必须经过两两计算相似度的步骤,并且只能利用局部信息,这样不可避免的会产生错误级联。本文采用超图模型来对共指消解中的各种特征和最终的等价类划分之间的关系建立模型,采用超图分割算法实现从共指特征到最终的表述等价类的直接划分。实验结果表明,这种方法将以往无指导方法和有指导方法之间的差距大幅度缩小,说明这种框架是可行的。 最后,共指消解在从单文档转换到多文档时,需要解决重名消解的问题。以往的重名消解方法基于人名的上下文词汇或者进行相关的属性抽取后,通过计算相关向量的相似度实现自底向上的或者从上到下的聚类。这种方法会包含很多无用词汇或者过度依赖相关信息抽取。为了避免这些问题,本文以人名搜索引擎检索结果对应的Snippet为研究对象,根据“物以类聚,人以群分”的思想建立人名对应的社会网络,通过对网络的扩展以及结合谱聚类算法,自动实现对重名消解。实验结果显示,结合谱聚类的社会网络方法可以较好的解决这个问题。