基于两阶段聚类的人名消歧算法研究

来源 :东北大学 | 被引量 : 3次 | 上传用户:andykiteelxu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及,向搜索引擎提交查询进行信息检索已经成为人们获取网络信息的主要方法。人名检索是最常见的检索之一,通过搜索引擎可以很方便的获取一个人物的信息,但是由于人名重复现象十分普遍,以至于对于一个人名的检索,搜索引擎常常返回一个很长的结果列表,包含了许多重名者。用户要想找到特定的人物信息,必须通过添加特征来改善查询,或者通过浏览的方式在结果列表中进行搜索,从众多重名者的信息中找到想要查询的人物信息,这样会使搜索性能大大下降。因此,有必要研究一种有效的人名消歧算法来提高人名检索效率。本文在分析现有人名消歧相关理论与技术的基础上,提出了两阶段聚类的人名消歧方法。人物属性是对人名消歧很重要的特征,首先,本文抽取了16种主要的人物属性,对于9种比较容易抽取的属性,采用传统正则表达模式和词典匹配的方法,而针对7种抽取比较困难的属性,采用一种基于自扩展的自动化抽取方法;然后,本文将搜索引擎返回的结果文档用属性向量表示,计算文档之间的相似度;最后进行初步聚类。由于并非所有的网页中都包含人物属性信息;因此初步聚类之后许多没有包含人物属性信息的网页不能被正确聚类。因此,本文提出了利用语义关系进行再次聚类的方法。首先,本文抽取维基百科中概念及概念之间语义关系,并对语义关系进行计算,构建语义关系图;其次,使用SimRank算法计算出任意两个节点之间的相似度;然后将初步聚类的结果表示成维基百科概念向量;最后,根据概念语义关系计算簇之间相似度,进行第二次人名聚类。实验结果证明了我们所提出的两阶段聚类相结合的人名消歧算法在准确率和召回率上都有显著提升,并且比先前的方法性能更优。证明了本文提出的算法对人名消歧问题的解决是有效的。
其他文献
随着互联网的发展,数据集成变得越来越重要,数据集成就是将来自多个不同的数据源的数据集成到一起,以便于以集成和统一的方式为用户提供更便捷的信息服务。在数据集成中非常
该文所论述的网络安全监测模型,以当今流行的入侵检测技术为主要方法,采用实时的基于NIDS的技术.模型采用层次化的结构框架,整个系统分为数据采集层、数据处理层、检测匹配层
该文考察了CRM数据挖掘中所要解决的几种问题,如:客户简档化、客户响应、客户价值、客户获取、产品推荐、客户保留,然后讨论了在CRM中应用数据挖掘时所面临的各种困难,如:数
本文介绍了WebGIS的特点和构成方法,然后介绍MapGuide平台的体系结构的各个组成部分以及这些软件组件是怎样协同工作的。论文中列举了三种开发基于MapGuide平台的WebGIS应用的
随着网络入侵事件的日益增多,人们逐渐认识到传统的单一的安全技术不能满足安全要求.网络安全是一个过程,需要将各种技术结合起来,考虑系统的动态行为,入侵检测技术应运而主.
以前视图选择和数据立方计算两方面的研究是分开的,由于视图选择往往需要事先估算视图的大小,选择完后还要对所选的视图进行实化,即进行数据立方计算.基于对视图选择算法PBS
作为人工智能的一个重要应用,人脸机器自动识别是一项极具挑战性的难题。它在理论和应用中的潜在价值一直激励着科研人员的不懈努力。本文主要研究了人脸图像的计算机识别问
数据采集和数据处理是配电自动化系统的两个基本功能.是为其他各种高层应用提供基本数据服务的,是其他应用的基础.该文所涉及的主要部分是从分布式、程序并发与协同设计思想
本文首先提出了国内近几年来办公自动化系统中存在的问题,重点分析了软件的模块复用性差这个问题。针对这个问题,本文提出可以建立一个工作流模型以解决。随后详细分析了在办公