面向新闻领域的人名消歧方法研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:xiaolinshihonggang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人名消歧是信息检索、数据挖掘等领域非常亟需解决的问题之一。目前,学术界对于人名消歧的研究已经取得了显著的成果,提出了很多人名消歧的算法。但是由于应用的领域的不同,处理的数据的不同以及人名消歧任务本身的复杂性,人名消歧任务还存在着许多问题。本文面向新闻领域,首先基于传统的聚类算法以及本文提出的改进算法进行人名消歧,为了有效的结合人物的背景知识,本文提出基于人物属性及关系框架的人名消歧方法,并提出互斥和非互斥的两阶段人名消歧方法。利用传统的基于凝聚的层次聚类的方法进行人名消歧,将人名消歧的任务转化为文档聚类的任务,并且对特征选择方法进行改进,针对不同的特征权重计算方法,簇之间距离计算方法进行对比实验。由于基于传统聚类方法进行人名消歧,只是利用词作为特征,并没有对特征进行区别对待,本文提出了基于命名实体和实体词的人物相似度计算方法,将特征转换为命名实体和实体词,并且将特征给予不同的权重进行整合。在本文的任务中,较于基于层次聚类算法的人名消歧方法,用single-link方法计算簇之间的距离,并且用本文提出的基于命名实体和实体词的方法计算人物相似度,得到更好的性能。但是,由于文档主题的多样性和人物自身的特点,有时人物的类别并不能由文档的主题所代表或者人物的主题类别区别不是很明显,基于此本文提出基于人物属性及关系框架的人名消歧方法,首先识别出人物的相关属性和关系实体即一些与人物最相关的背景知识,提出了人物属性及关系实体的识别方法,利用识别出的背景知识,再对人物是否属于同一个人物进行判断。最后,本文提出基于互斥和非互斥的两阶段人名消歧方法,将基于属性及关系框架的人名消歧方法与基于传统聚类算法的人名消歧方法进行整合,本文提出的方法,较于基于传统的聚类算法的人名消歧方法,用基于Purity方法评价,平均F值提高了3.1个百分点,用BCubed方法评价,平均F值提高了4.2个百分点,充分验证了本文提出方法的有效性。
其他文献
随着社会的发展,各种信息数据的总量正在不断的扩大。数据量的激增给数据的保存和使用都带来了巨大的压力。为了解决数据规模的增加与存储空间的矛盾,高效的压缩算法被相继提
随着新的分布式计算技术的发展,以web服务为基础的网络式软件已成为主流的应用架构。服务软件系统中的计算元素,由传统的模块和类变为粒度更大、结构更复杂的Web服务,系统呈
云计算的大规模发展以及广泛普及,使越来越多的用户感受到了便利。在用户使用云服务之前,如何进行云服务选择是首先面临的问题。论文针对已有云服务选择方法中存在的一些问题
客户关系管理是当前企业管理的一个热点问题,特别是基于数据挖掘的CRM需求预测模型的应用研究对企业利润的增长具有积极的促进作用,因而受到企业的高度重视。实现一个智能化
工作流管理系统是实现业务过程的部分或全部在计算机应用环境中自动化的重要技术,工作流管理系统的广泛应用,提高了企业生产水平和工作效率。然而,新的技术、新的法规和新的
随着计算机技术的快速发展,网络应用已经在全球得以推广,有效地管理网络资源,科学合理地对网络资源的使用和占用进行计量,同时有效地监督和控制人们的上网行为,避免无为上网
为了解决开放式网络中网络服务的安全授权问题,Blaze等人将传统安全授权机制中的“信任”概念抽取出来作为研究对象,提出了信任管理的概念。信任管理克服了传统安全授权机制
随着计算机网络的发展,用户接入Internet的带宽越来越大,然而受Internet两个固有特性传输延时和网络丢包的影响,接入带宽成比例的提升并不能带来同比例提升的吞吐率,因而如何
P2P网络是以计算机网络为基础,采用对等模式工作的覆盖网络。P2P网络把传统的C/S模式改为每个节点处于同等地位的对等模式,任何两个人通过此网络都能直接、对等的共享文件、传
据最新统计,随着网络技术的飞速发展和互联网宽带技术的普及,目前Internet上的流媒体应用,如视频点播、视频直播等已经成为了主流应用形式。P2P技术打破了传统的传输模型,没