论文部分内容阅读
随着全球学术研究活动的蓬勃发展,学术文献的发表数量与日俱增。为了应对海量学术文献的组织和管理挑战,以互联网技术为基础诞生的一系列学术文献数据库、学术搜索平台以及近几年兴起的学术知识图谱等,正改变着我们对学术文献的组织、管理、查询和获取方式。然而,由于学术文献中广泛存在的作者同名现象,使得许多同名作者的学术文献无法较好的区分开来。譬如在学术信息检索场景中,基于作者名的文献检索方式无法精准获取到对应作者的学术文献。此外,学术文献作者名歧义也给情报学、文献计量学等相关研究领域带来了不小的困扰,影响了学术评价的准确性。因此,对学术文献中存在的同名作者进行消歧至关重要。在此背景下,本文研究了学术文献中的同名作者消歧问题,主要针对冷启动消歧和增量消歧两个应用场景。整体而言,本文的主要内容和创新点可以概括为两个方面:(1)针对学术文献同名作者消歧的冷启动场景,提出了一种融合异质图网络特征和学术文献语义特征的消歧方法。该方法根据学术文献、学者及学者所在机构之间的关系构成异质图网络,借助元路径随机游走算法获取学术文献的关系表示向量。然后利用Word2Vec训练并提取学术文献数据中的语义特征,构成学术文献的语义表征向量。之后通过相似度计算的方法来获得其相似度矩阵。最后借助DBSCAN聚类方法进行聚类来实现同名消歧。(2)针对学术文献同名作者消歧的增量消歧场景,本文将该问题转化为一个相似度匹配问题,提出了一种多特征融合的相似度计算方法来对新增的学术文献进行消歧。该方法首先提取学术文献数据中的基本元数据的相似度特征,为了获得语义方面的相似度特征,借助预训练语言模型BERT来进行语义特征抽取,然后通过计算新增学术文献的特征向量和各个待匹配作者的特征向量之间的相似度来得到两者之间的相似度特征。最后,融合文本相似度特征和语义相似度特征,并输入XGBoost分类模型进行相似度匹配,将新增文献分配给同名作者中相似度最高的作者,完成学术文献的增量消歧任务。