基于多层次聚类的同名区分算法研究与应用

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:yfs245324210
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
同名是一个人名对应多个真实个体的现象。同名区分就是要将这些混合在一起的真实个体区分开。本文以解决学术资源管理系统中的同名问题为背景,对文献管理中的同名区分问题进行了分类和定义,提出了基于合作者网络和期刊间潜在关系的多层次聚类的同名区分算法。针对文献合作者关系在同名区分问题中有较强指导性的特点,本文提出了基于合作者的同名区分算法,并对其进行了形式化定义。通过对区分结果进行分析,发现了合作者重名问题。借助基于统计的“强作者”概念,进一步完善基于合作者规则的同名区分算法。实验证明,该方法具有较高的准确率。不同研究方向的作者的投稿期刊有一定规律性。本文结合潜在语义分析在文本挖掘中的应用,利用非负矩阵分解,从作者与期刊的角度挖掘和表示期刊间的潜在关系。由于潜在关系的挖掘在矩阵分解阶段完成,使得该方法建立的期刊关系模型在应用中具有简单、高效的特点。实验表明该方法可以准确表示不同期刊间的关系。在以上的基础上,结合文献数据特点,本文对待区分数据中的合作者、标题、期刊信息采用不同的处理方式分层完成聚类。最后通过实验证实本文提出的算法在实际数据中取得了较好的结果,优于有监督的DISTINCT算法、无监督的Arnetminer和CSLR算法。同时算法在执行时间上,同综合性能最接近的CSLR算法相比,降低了1-2个数量级。最后本文将同名区分算法通过Web Service的方式集成到学术资源共享平台Linkscholar中。
其他文献
随着金属矿山生产管理现代化、数字化进程的发展,可视化生产管理、交互式的安全生产演练及培训已成为未来矿山数字化建设发展的趋势。而虚拟现实作为近年来新兴的技术,已经逐渐
软件仓库挖掘是数据仓库挖掘的重要组成部分,在软件的开发,测试和维护工作中扮演着举足轻重的角色。数据仓库是支持项目管理中的决策制定过程的、面向主题的,并且是集成的、
在当今社会,随着移动计算和移动互联网技术的飞速发展,网络通信被越来越多的应用到了移动设备之间,比如移动学习、移动自组织传感器网络等等,极大的方便了人们的生活,提升了
  核磁共振成像作为医学领域中极其重要的成像技术之一,具有对病灶定位精确、对人体安全性高等优点,如何缩短采集时间、提高成像速度是核磁共振成像中的关键问题。压缩感知作
铁路物流资源包括包装加工资源、仓储资源、装卸资源、配送资源等,具有种类多、数量大、相对分散的特点,不利于集中管理。现阶段,物流企业管理资源的方式相对落后,主要表现在以纸
Linux操作系统由于其开源和免费的特点受到大家的青睐,同样其遭受的攻击也层出不穷,木马是其中威胁较大的一个,木马侵入电脑后首先并不进行破坏性的操作,但是在内部监控计算
综合调度是研究如何将复杂单件产品的加工和装配一同高效地并行处理的调度问题,具有理论价值和实际意义。针对一般综合调度中,采用设备空闲事件驱动算法,可调度工序不唯一时,驱动空闲设备选择父节点路径长的工序进行调度,没有考虑同设备上工序串行加工形成较长实质路径,延长产品加工时间,影响调度结果的问题,提出了基于实质短路径的设备驱动综合调度算法。该算法采取在设备驱动时刻驱动空闲设备动态地调度实质短路径上的工序
创新设计是企业能够不断发展不断进步的动力。创新原理和创新知识可以启发设计人员产生全新式的设计思路。效应表达的是科学原理,利用本体对科学效应进行表达更加规范且实现了
基因表达式编程(GEP)算法是一种融合了遗传算法和遗传编程的新型演化计算方法,目前己被广泛应用于函数发现、数据挖掘等领域。多表达式编程(MEP)算法是一种一条染色体内包含
为了让分布在Internet上的Web服务,不仅能让人们阅读,还能便于计算机有效地利用,有些学者提出了语义Web服务。近年来,伴随着网格计算和云计算技术,在新一代大规模互联网应用