基于科研论文合作者关系图的同名排歧方法研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:njpolice
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代的到来造成知识更新瞬息万变,网络信息以不同的形式提供了各种各样的知识,造成了知识对象的歧义。如何从浩瀚的知识海洋中获取所需要的、正确、没有歧义的知识,正是当前亟需解决的问题。同名问题是典型的知识对象歧义问题,是一个人名对应多个真实个体的现象。在科学研究中,作者名字歧义问题不仅降低了文献和网络检索的准确性,而且对数据挖掘等研究造成了一定的影响。同名排歧的目的是要将这些混淆在一起的真实个体区分开。考虑到科研论文中存在着复杂的合作者关系,同时为了更准确地描述论文之间真实相似程度,本文基于合作者关系图模型,提出了合作者关联图上的多路径游走同名排歧算法和基于二分图的P-Sim Rank同名排歧算法:(1)针对传统的文本相似度计算方法不能对复杂的合作者关系进行准确度量的问题,结合合作者关联图能传递合作者链接关系的特性,提出了基于合作者关联图的多路径游走(Multi-path Walk Based on Coauthorship Association Graph,MWCAG)同名排歧算法。首先,MWCAG利用论文间的合作者信息构建了合作者文章列表;然后,基于合作者文章列表构建了合作者关联图,并采用简单有效的、且根据同名排歧问题进行优化后的多路径游走策略进行合作者相似度的计算;接下来,用文本相似度方法计算了期刊与标题的相似性;最后,针对排歧集合规模的差异导致不同规模相似值的差异,进行动态层次聚类,实现排歧目的。本文选择了数据格式规范度较高的DBLP数据进行实验,实验结果表明,MWCAG算法有较高的准确率和召回率。(2)分析论文中合作者关系存在间接关联性的特点,结合合作者二分图网络的整体拓扑结构特征,提出了基于二分图的P-Sim Rank同名排歧算法。考虑到原始的Sim Rank算法无法直接适用于同名排歧问题,因此对其进行了两点改进:1)针对Sim Rank算法应用在完全二分图上,导致拥有不同共有邻居节点数目的节点相似值不准确的缺陷,引入了证据(evidence)因子,对其相似值进行了修正;2)针对排歧集合规模的差异造成了相似度差异的问题,引入了惩罚(penalty)因子,平衡了不同集合规模间的相似度。同时结合期刊与标题的文本相似性,进行层次聚类。本文选择了数据格式规范度较高的DBLP数据进行实验,实验结果表明P-Sim Rank算法有较高的准确率和召回率。
其他文献
<正>12月29日,中国电子技术标准化研究院网站发布了《大数据标准化白皮书v2.0》,新版大数据标准化白皮书展示了由中国电子技术标准化研究院提出的"大数据标准体系框架"。大数
【正】 仲夏,当人们吃着甜酸可口的西红柿时,您可曾知道它是怎样成为我们的食用品的吗? 说来话长,西红柿最早野生在南美洲秘鲁的森林里,被人们称为“狼桃”。由于它成熟时色
作为制造企业内部管理的关键环节,采购管理必须要进行优化,采用现代化采购模式。本文介绍了制造企业采购管理存在的问题,并提出了针对性的优化策略与建议,希望为有关人士提供
生态环境保护是功在当代、利在千秋的事业。进一步深入学习和弘扬谷文昌精神,就要学习他重视生态、保护环境的发展理念,全力推动富美漳州建设,努力实现“百姓富”与“生态美”的
报纸
红色资源为高校社会主义核心价值观教育提供了优质资源和正确价值导向。红色资源融入大学生社会主义核心价值观教育,对于维护校园意识形态安全、引领校园舆情、适应高校人才
2000年 12月 26 日.由文化部艺术司主办、中国画研究院承办的“全国画院工作座谈会”召开.60余位包括各省市级画院院长甚至部分省市文化厅局、文联领导人在内的代表齐集北京,
<正>2010年4月初,南阳市宛城区四届人大常委会第二十三次会议听取了区政府相关部门的整改报告。部门整改取得的累累硕果,不时赢得常委会组成人员热烈的掌声。至此,整个评议工
【正】 南阳市靳岗乡坡桥村护林员王金堂、七里园乡岗王庄村护林员王金有,自担负护林员工作以来,兢兢业业,尽职尽责,使他们管护地段植树的成活率和保存率居全市先进
【正】 地处豫西伏牛山区的卢氏县,采取“播”、封、补、管”四管齐下,环环扣紧的办法,坚持搞好飞播造林,使25万亩荒山披上了绿装。卢氏县素有“八山、一水、一分田”之称,宜
QC活动是企业全面质量管理的一个重要环节,结合我厂实际情况,略谈一下QC活动给企业带来的益处。1.促使职工认识到自身的价值,增强工作信心。~个职工最大的乐趣莫过于以自身价值的
期刊