基于多源异构数据的中文科技文献作者同名消歧研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:JackCF1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在文献数据库中会存在许多相关性极低的论文,这些文章署名相同,但实际并不是同一个人,称之为同名问题,这严重影响了检索的质量。此外,同一个作者可能超过一个的名称变体,称之为共指问题,例如姓名缩写不同、工作机构调动,都会导致不完整的查询输出。这些都属于同名消歧问题。同名消歧的本质是一种利用知识库进行命名实体消歧,即将文本中的实体指称映射到知识库中对应字段的方法。本文中的命名实体识别特指科技文献作者识别,将科技文献作者与其发表的科技文献成果一一映射,形成个人成果数据集。在科技文献作者同名问题中,若文献数据库作为单一的数据来源,会导致无法识别同机构同领域的作者,从而使消歧结果存在偏差。多源数据能够增加作者相关信息研究的深度,更客观地评价科研人员。在同名消歧中数据是动态的、不断增长的,增量数据也是消歧中重要的一部分,而增量数据被许多研究者忽略,多源数据也造成增量数据难处理的问题。因此,本文针对现有的问题,对同名消歧进行了以下研究:(一)基于多源异构数据构建了同名作者本体模型。首先,本文阐述了本体的相关,并对同名消歧问题进行定义。其次,从多个数据源采集了科技文献作者相关数据,利用领域本体构建了相关人物模型,以解决在知识模糊的情况下知识无法共享存在的问题,为同名消歧的实现提供底层的结构化数据支撑。(二)基于作者本体模型提出了完整的科技文献作者同名消歧方法。本文通过合作关系发现歧义,选取机构、领域、邮箱等强相关特征,基于规则对同名作者数据集消歧。当作者新发表期刊论文和有新作者发表期刊论文时,通过计算融合相似度,将较大相似度的同名作者划分为一类,并将类别不存在的作者增加为新的一类,完成增量数据的更新。该方法具有完整的同名消歧流程,并为决策者提供了有效的参考。(三)对本文提出的基于多源异构数据的科技文献作者同名消歧方法进行实例验证。首先,以知网、万方、维普和学者个人主页作为数据源,进行数据预处理和融合,构建了1万条同名消歧作者数据。以这些科技文献作者数据集的合作关系为基础,根据文中的方法,发现歧义并对同名作者消歧,验证了该方法的可行性。本文提出的方法对建库人员来说具有重要意义,有歧义的知识库不利于科研成果的统计分析和用户传播。而进行完整的同名消歧后,增量数据能够被计算机自动整合,系统维护人员的工作量不仅大大减小,还能够为科技情报部门提供有效的统计数据,提高科技决策效率。
其他文献
移动图书馆成为图书馆服务新的发展方向,也是近年来国内外研究热点。各高校投入了大量资源进行移动图书馆建设,以改进图书馆移动信息服务质量。但从实际使用情况来看,用户对它的实际认可度并不高,并没有达到预期效果。信息系统的应用成功依赖于用户的持续使用,移动图书馆也不例外。移动图书馆的建设,一方面需要图书馆自身的不断改进与创新,另一方面用户的持续使用直接影响移动图书馆的可持续发展。当前,国内学者对移动图书馆
2020年是我国全面建成小康社会的实现之年,也是脱贫攻坚的收官之年。现阶段,减贫脱贫成为党和国家人民关注的重要问题。随着长期扶贫工作的开展,我国贫困人口不断减少,精准识贫、精准扶贫成为当下脱贫工作的重心。减贫脱贫的最终效果受多重因素影响。近年来,学术界基于多个不同的视角对农村减贫影响因素展开了研究,从经济、收入分配、财政支付等宏观层面以及教育、健康、工作经验等微观层面形成了大量的研究成果。贫困是由
2016年,“十三五”的第一年,更是提出了对电子档案信息化建设的更高要求。由此可见,电子文件管理系统的设计以及未来的开发应用,对于当前分析我国“电子文件系统”建设现状,
随着监测设备的广泛使用,在交通、气象、金融等领域均可采集大量的多维时间序列数据。时间序列具有随机性、连续性和周期性的特点,对时间序列进行预测分析,预测结果可以有效
随着社会经济的不断发展,人们的需求逐渐从物质需求转向精神满足,通过观看电影产品来满足自己的精神需求成了人们生活的常态。动漫电影产业作为文化创意产业的一部分,得到了政策的青睐。在过去的几年里,政府出台了一系列方针、政策、规划、纲要,为国产动漫产业的发展,打了一个很好的辅助。各种力量涌向动漫产业,为动漫产业的发展带来了机遇,但是“投入者”的盲目热情、“观众”的产品对比、“旁观者”的过分关注、以及“有形
在面临市场竞争及企业转型时期,制定适合企业的竞争战略对企业有重要的指导作用。近年来,随着国内都市型现代农业的不断兴起,对都市型现代农业的理解观念认识上不到位、竞争战略规划不科学、产业化经营不强、产品参差不齐、服务水平偏低、雷同严重等问题逐渐显现。京郊草莓博览园被北京市定位为发展现代都市农业的探索基地,为了探索现代都市农业发展,在草莓博览园策划了北京农业嘉年华活动。北京农业嘉年华活动是探索都市型现代
纺织业是我国的传统优势行业,发展历史悠久,市场化程度高,长期以来一直依靠我国廉价的劳动力获得很强的价格优势。但随着全球经济动荡源和风险点的增多,原料、用工成本上升,以及国家环保标准的提高,行业竞争越来越激烈,一系列问题喷涌而出:产品同质化、产能过剩、消费者需求个性化、出口和内需增长乏力等。纺织企业必须厘清自身优势和不足,顺应经济发展趋势,制定恰当的竞争战略,形成核心竞争力,才能实现企业的可持续发展
伴随着“智能高铁”时代来临,高铁列车及旅客对车内无线通信网络提出了越来越高的要求,传统GSM-R铁路专网已无法满足高带宽、低时延的多样化业务通信需求,因此向下一代铁路通
所谓的延迟退休,是指国家根据社会年龄结构、就业市场压力和养老保险基金收支的变化状况对退休年龄进行上调的政策。随着我国人口数量増速降低、人口老龄化也带来了一系列的社会问题,使得日益上升的养老金需求与并不完善的养老保险制度之间的矛盾愈发尖锐。除此以外,社会保障制度转轨带来下了大量债务和欠账,会严重影响养老金的支付能力。根据由中国社会科学院世界社保研究中心撰写发布的《中国养老金精算报告2018-2022
随着科技的迅速发展,各个领域的情报信息、研究成果产量迅速增长,而如何快速找到符合科技人员兴趣的信息成了亟待解决的问题。信息过载的现象加速了推荐系统的研究。情报推送技术旨在联系科技人员与科技文献、技术报告、新闻等情报信息库,为科技人员及时准确地推送符合其需要的情报信息。科技文献和技术报告等是科技人员了解当前技术前沿、学术动态的重要途径之一。针对仅从用户评分信息单一角度的推荐系统存在的冷启动问题,本文