论文部分内容阅读
大数据时代的到来造成知识更新瞬息万变,网络信息以不同的形式提供了各种各样的知识,造成了知识对象的歧义。如何从浩瀚的知识海洋中获取所需要的、正确、没有歧义的知识,正是当前亟需解决的问题。同名问题是典型的知识对象歧义问题,是一个人名对应多个真实个体的现象。在科学研究中,作者名字歧义问题不仅降低了文献和网络检索的准确性,而且对数据挖掘等研究造成了一定的影响。同名排歧的目的是要将这些混淆在一起的真实个体区分开。考虑到科研论文中存在着复杂的合作者关系,同时为了更准确地描述论文之间真实相似程度,本文基于合作者关系图模型,提出了合作者关联图上的多路径游走同名排歧算法和基于二分图的P-Sim Rank同名排歧算法:(1)针对传统的文本相似度计算方法不能对复杂的合作者关系进行准确度量的问题,结合合作者关联图能传递合作者链接关系的特性,提出了基于合作者关联图的多路径游走(Multi-path Walk Based on Coauthorship Association Graph,MWCAG)同名排歧算法。首先,MWCAG利用论文间的合作者信息构建了合作者文章列表;然后,基于合作者文章列表构建了合作者关联图,并采用简单有效的、且根据同名排歧问题进行优化后的多路径游走策略进行合作者相似度的计算;接下来,用文本相似度方法计算了期刊与标题的相似性;最后,针对排歧集合规模的差异导致不同规模相似值的差异,进行动态层次聚类,实现排歧目的。本文选择了数据格式规范度较高的DBLP数据进行实验,实验结果表明,MWCAG算法有较高的准确率和召回率。(2)分析论文中合作者关系存在间接关联性的特点,结合合作者二分图网络的整体拓扑结构特征,提出了基于二分图的P-Sim Rank同名排歧算法。考虑到原始的Sim Rank算法无法直接适用于同名排歧问题,因此对其进行了两点改进:1)针对Sim Rank算法应用在完全二分图上,导致拥有不同共有邻居节点数目的节点相似值不准确的缺陷,引入了证据(evidence)因子,对其相似值进行了修正;2)针对排歧集合规模的差异造成了相似度差异的问题,引入了惩罚(penalty)因子,平衡了不同集合规模间的相似度。同时结合期刊与标题的文本相似性,进行层次聚类。本文选择了数据格式规范度较高的DBLP数据进行实验,实验结果表明P-Sim Rank算法有较高的准确率和召回率。