基于异构信息网络和细粒度特征的学者消歧方法研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:wangshilei19850715
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
学术资源共享使得研究者们对公开学术资源的依赖日臻紧密。但资源信息中重名现象的普遍性以及因文化差异导致的记录方式的不一致性,使得数据库中存在大量同名学者。姓名歧义问题已成为学术资源检索的一大阻碍。现有的学者姓名消歧解决方案中存在以下问题:1)有效信息利用不充分。在表示学习中因未充分考虑期刊等特征,以及作者与期刊等关系类型而导致表示模型单一,不足以全面刻画待消歧实体;2)同构算法不能有效表示异构特征。文献的引用、著作等关系以及发表期刊、摘要等属性之间存在差异,现有同构算法不能准确提取文献的异构特征;3)容错能力差。许多模型没有考虑特征缺失的情况,在现实场景中难以直接应用。针对这些问题,本文基于异构信息网络和细粒度特征提出一系列学者姓名消歧方法,包括:(1)融合多类特征关系的学者消歧算法(MFRAD)。在学者消歧算法常用的著作和合作关系基础上,引入引用关系、所属单位、文献摘要等信息;构建多个异构信息网络,将多种结构信息和文本信息相融合以全面提取文献特征;并设计可扩展的基于成对约束的损失函数表征网络信息,使得模型具备对不同数据集的适配性。(2)本文提出一种异构关系感知的网络表示模型(HRANE),解决单一模型的局限性。本文分析了文献特征对姓名消歧的影响程度以及关系类型的差异性,分别构建不同强度的异构关系网络,共同约束文献特征的学习,以减小因强特征缺失而生成的不完备网络对消歧效果的影响。(3)本文提出一种结合异构关系感知和特征增强的网络表示模型(HRFENE),更有效地利用弱特征。HRFENE保留合作、引用和著作等强特征网络和期刊等较强特征网络,将弱特征和较强特征作为强特征网络中的节点属性,迭代学习网络结构信息和节点属性信息以更好的表征待消歧实体。并对该模型的复杂度进行了分析。(4)在公开数据集上验证本文网络表示模型的有效性。实验表明本文的HRFENE模型与对比模型中的最优的模型相比,在Aminer和DBLP数据集上,综合评价指标(Macro-F1)值分别提升了19.27%和10.96%,对单个姓名的消歧结果最高提升了38.71%。基于上述模型,本文还构建了一套半自动化学者姓名消歧框架,通过对聚类算法和人工反馈环节进行优化,能高效准确地进行学者姓名消歧。
其他文献
对已有的一个(t,n)门限共享验证签名方案进行了分析,发现了其安全漏洞.这样的漏洞使得敌手可利用伪造攻击和替换攻击对验证组进行欺骗;利用可验证秘密分享技术,提出了一个基
提出了一种基于内嵌零树编码的感兴趣区图像压缩算法和一种与主观视觉效果一致的描述感兴趣区图像恢复质量的加权信噪比评价方法.该算法采用了一种简单有效的不依赖小波滤波
让自己的电脑在特点时间自动启动,不但可以当作闹钟用,还能够在大半夜里吓唬自己的室友说闹鬼,其实听上去这么好玩的事情,完全可以通过CMOS的设置来实现这一目标:
结合集成电路虚拟制造系统的设计,给出集成电路虚拟制造的系统结构,讨论了系统设计中的两个关键问题,即开放式集成框架软件的开发和集成电路制造系统的建模.在开放式集成框架
分布式乘法计算协议是应用很广泛的基础密码协议.分布式乘法计算是构造门限密码体制的基本模块,同时也是安全多方计算领域的重要研究内容.文中分析了几种主要的分布式乘法计
分布布拉格反射式(Distributed Bragg reflector,DBR)可调谐半导体激光器是成本敏感型光纤接入网的关键器件之一。DBR激光器具有波长调谐范围大、调谐时间短(在纳秒量级)的优
上海某2层地下室的基坑工程,因其环境保护要求较高,地质情况较复杂,设计结合项目特点采取钻孔灌注桩整体围护和分区开挖的技术方案,最后以1道混凝土支撑为主,严格控制施工流
中药质量评价是中药现代化发展的关键问题之一。现行中药质量控制模式是参照国外植物药和化学药品的质量控制模式建立的,由于中药自身的复杂性,难以有效的评价中药质量,更难