面向学术文献数据的同名作者消歧方法研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:skycliff520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着全球学术研究活动的蓬勃发展,学术文献的发表数量与日俱增。为了应对海量学术文献的组织和管理挑战,以互联网技术为基础诞生的一系列学术文献数据库、学术搜索平台以及近几年兴起的学术知识图谱等,正改变着我们对学术文献的组织、管理、查询和获取方式。然而,由于学术文献中广泛存在的作者同名现象,使得许多同名作者的学术文献无法较好的区分开来。譬如在学术信息检索场景中,基于作者名的文献检索方式无法精准获取到对应作者的学术文献。此外,学术文献作者名歧义也给情报学、文献计量学等相关研究领域带来了不小的困扰,影响了学术评价的准确性。因此,对学术文献中存在的同名作者进行消歧至关重要。在此背景下,本文研究了学术文献中的同名作者消歧问题,主要针对冷启动消歧和增量消歧两个应用场景。整体而言,本文的主要内容和创新点可以概括为两个方面:(1)针对学术文献同名作者消歧的冷启动场景,提出了一种融合异质图网络特征和学术文献语义特征的消歧方法。该方法根据学术文献、学者及学者所在机构之间的关系构成异质图网络,借助元路径随机游走算法获取学术文献的关系表示向量。然后利用Word2Vec训练并提取学术文献数据中的语义特征,构成学术文献的语义表征向量。之后通过相似度计算的方法来获得其相似度矩阵。最后借助DBSCAN聚类方法进行聚类来实现同名消歧。(2)针对学术文献同名作者消歧的增量消歧场景,本文将该问题转化为一个相似度匹配问题,提出了一种多特征融合的相似度计算方法来对新增的学术文献进行消歧。该方法首先提取学术文献数据中的基本元数据的相似度特征,为了获得语义方面的相似度特征,借助预训练语言模型BERT来进行语义特征抽取,然后通过计算新增学术文献的特征向量和各个待匹配作者的特征向量之间的相似度来得到两者之间的相似度特征。最后,融合文本相似度特征和语义相似度特征,并输入XGBoost分类模型进行相似度匹配,将新增文献分配给同名作者中相似度最高的作者,完成学术文献的增量消歧任务。
其他文献
根据当前少先队辅导员专业化发展研究以及教师身份认同研究的影响,少先队辅导员身份认同研究逐渐成为少先队研究中的热点话题,但纵观以往针对少先队辅导员身份认同的研究,研
百草枯(PQ)又名'克无踪'、'对草快'、'敌草快',是目前世界范围内广泛使用的有机杂环类接触性脱叶剂及除草剂,在碱性溶液中水解,接触土壤后较快失去
目的 探讨在高强度聚焦超声(HIFU)辐照过程中,超声图像与HIFU辐照产生凝固性坏死的关系,以提高监控超声对HIFU凝固性坏死的判断灵敏度.方法 在相同声强、辐照时间、辐照深度情
超级电容器由于功率密度高、循环寿命长等优点,在混合动力汽车、电网储能以及国防装备等领域具有广泛的应用。然而,与二次电池相比,超级电容器的能量密度要低几个数量级,这种
市场营销理论告诉我们:每个企业都要根据市场的不同情况,精细划分各个市场,针对各个市场采取不同的营销策略和手段才能取得市场营销的成功,那么我们煤田地质勘探行业根据目前的形
钙连接蛋白是定位于内质网膜上的一种分子伴侣,参与糖蛋白的折叠与质量控制。在哺乳动物中,钙连接蛋白是内质网主要的钙离子结合蛋白之一。尽管该蛋白存在结合钙离子的区域,