论文部分内容阅读
人名消歧是信息检索、数据挖掘等领域非常亟需解决的问题之一。目前,学术界对于人名消歧的研究已经取得了显著的成果,提出了很多人名消歧的算法。但是由于应用的领域的不同,处理的数据的不同以及人名消歧任务本身的复杂性,人名消歧任务还存在着许多问题。本文面向新闻领域,首先基于传统的聚类算法以及本文提出的改进算法进行人名消歧,为了有效的结合人物的背景知识,本文提出基于人物属性及关系框架的人名消歧方法,并提出互斥和非互斥的两阶段人名消歧方法。利用传统的基于凝聚的层次聚类的方法进行人名消歧,将人名消歧的任务转化为文档聚类的任务,并且对特征选择方法进行改进,针对不同的特征权重计算方法,簇之间距离计算方法进行对比实验。由于基于传统聚类方法进行人名消歧,只是利用词作为特征,并没有对特征进行区别对待,本文提出了基于命名实体和实体词的人物相似度计算方法,将特征转换为命名实体和实体词,并且将特征给予不同的权重进行整合。在本文的任务中,较于基于层次聚类算法的人名消歧方法,用single-link方法计算簇之间的距离,并且用本文提出的基于命名实体和实体词的方法计算人物相似度,得到更好的性能。但是,由于文档主题的多样性和人物自身的特点,有时人物的类别并不能由文档的主题所代表或者人物的主题类别区别不是很明显,基于此本文提出基于人物属性及关系框架的人名消歧方法,首先识别出人物的相关属性和关系实体即一些与人物最相关的背景知识,提出了人物属性及关系实体的识别方法,利用识别出的背景知识,再对人物是否属于同一个人物进行判断。最后,本文提出基于互斥和非互斥的两阶段人名消歧方法,将基于属性及关系框架的人名消歧方法与基于传统聚类算法的人名消歧方法进行整合,本文提出的方法,较于基于传统的聚类算法的人名消歧方法,用基于Purity方法评价,平均F值提高了3.1个百分点,用BCubed方法评价,平均F值提高了4.2个百分点,充分验证了本文提出方法的有效性。