论文部分内容阅读
学术资源共享使得研究者们对公开学术资源的依赖日臻紧密。但资源信息中重名现象的普遍性以及因文化差异导致的记录方式的不一致性,使得数据库中存在大量同名学者。姓名歧义问题已成为学术资源检索的一大阻碍。现有的学者姓名消歧解决方案中存在以下问题:1)有效信息利用不充分。在表示学习中因未充分考虑期刊等特征,以及作者与期刊等关系类型而导致表示模型单一,不足以全面刻画待消歧实体;2)同构算法不能有效表示异构特征。文献的引用、著作等关系以及发表期刊、摘要等属性之间存在差异,现有同构算法不能准确提取文献的异构特征;3)容错能力差。许多模型没有考虑特征缺失的情况,在现实场景中难以直接应用。针对这些问题,本文基于异构信息网络和细粒度特征提出一系列学者姓名消歧方法,包括:(1)融合多类特征关系的学者消歧算法(MFRAD)。在学者消歧算法常用的著作和合作关系基础上,引入引用关系、所属单位、文献摘要等信息;构建多个异构信息网络,将多种结构信息和文本信息相融合以全面提取文献特征;并设计可扩展的基于成对约束的损失函数表征网络信息,使得模型具备对不同数据集的适配性。(2)本文提出一种异构关系感知的网络表示模型(HRANE),解决单一模型的局限性。本文分析了文献特征对姓名消歧的影响程度以及关系类型的差异性,分别构建不同强度的异构关系网络,共同约束文献特征的学习,以减小因强特征缺失而生成的不完备网络对消歧效果的影响。(3)本文提出一种结合异构关系感知和特征增强的网络表示模型(HRFENE),更有效地利用弱特征。HRFENE保留合作、引用和著作等强特征网络和期刊等较强特征网络,将弱特征和较强特征作为强特征网络中的节点属性,迭代学习网络结构信息和节点属性信息以更好的表征待消歧实体。并对该模型的复杂度进行了分析。(4)在公开数据集上验证本文网络表示模型的有效性。实验表明本文的HRFENE模型与对比模型中的最优的模型相比,在Aminer和DBLP数据集上,综合评价指标(Macro-F1)值分别提升了19.27%和10.96%,对单个姓名的消歧结果最高提升了38.71%。基于上述模型,本文还构建了一套半自动化学者姓名消歧框架,通过对聚类算法和人工反馈环节进行优化,能高效准确地进行学者姓名消歧。