基于分步聚类的文献作者重名消歧系统设计与实现

来源 :东南大学 | 被引量 : 0次 | 上传用户:kaofzp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
产学研数据服务平台的科技文献数据来源于互联网文献知识库,但处理科技文献数据时不得不面对作者姓名歧义的问题。作者姓名歧义问题是指在以作者姓名作为主要标识的文献数据库中,由于学者同名现象的普遍存在,经常出现无法判断文献所属作者的情况。而在推进产学研合作过程中,工作人员和企业通过科技文献检索对应专家学者,作者姓名歧义会严重影响检索的准确率。因此,构建一个能有效消除姓名的歧义,准确判断文献作者归属的数据清洗工具具有重要的应用价值。本文针对目前文献中存在的作者重名问题,设计并实现了文献作者重名消歧系统。系统通过处理使用网络爬虫爬取到的作者信息和文献信息,提取文献特征将文献划分为不同的簇,接着链接文献簇与学者实体。在实现不同数据源的文献与学者数据集成后,系统利用Web应用实现了数据可视化。本文主要工作如下:(1)提出一种基于分步聚类的文献作者重名消歧算法TSC算法。构建待消歧作者的合作关系图并通过路径参数计算作者相似度并完成聚类,接着通过词向量模型训练和预测得出文献文本向量表示并计算文本相似度,然后通过文本相似度完成第二步聚类。最终划分出的文献簇即为不同作者各自名下的文献。对比实验结果显示分步聚类算法准确率和召回率总体表现更加优异。(2)针对中文论文、英文论文和专利等来自于不同数据源的文献数据,使用不同的策略实现专家学者实体与这些多源异构的文献数据集成。最终可以通过专家姓名检索到其名下所有的科技文献。实验结果显示数据集成错误率总体较低,基本实现文献与作者精确连接,具备可用性。(3)设计并实现了文献作者重名消歧系统,主要包含消歧聚类模块、多源异构数据集成模块以及数据可视化模块。对系统提供的功能进行功能测试,验证系统各功能模块均能正常运行。
其他文献
随着智能终端的普及,可穿戴电子设备呈现出巨大的市场前景。传感器作为核心部件之一,将影响可穿戴设备的功能设计与未来发展。柔性应变传感器具有轻薄便携、电学性能优异和集成度高等特点,使其成为最受关注的电学传感器之一。但是柔性应变传感器在细微应变检测应用中表现不佳,原因是柔性衬底的泊松效应(Poisson’s effect)导致灵敏度低下。柔性应变传感器在拉伸时,柔性衬底在拉伸方向上拉伸而在与其垂直方向上
近年来随着经济社会以及城市化的发展,我国建筑业向绿色环保、提质增效的方向发展,建筑工业化成为未来发展的趋势。装配式混凝土结构能够减少现场湿作业和劳动力用量,提高建造效率,保障施工质量,成为建筑工业化的重点发展方向。目前常见的一种装配式框架结构的梁柱连接方式是梁端带U型槽式连接,在以往的研究中,此类节点在地震作用下梁端易产生混凝土破碎并造成钢筋弯曲,使得节点承载力迅速下降,并时常伴随着节点区大量裂缝
当今社会,X射线在医疗,工业探伤,以及航空航天等领域都有着重要应用,而探测和分辨X射线则是射线应用的重要一环,所以研制高性能、低噪声的X射线探测器是X射线应用的重中之重。一般来说,探测X射线的方法可以分为间接探测和直接探测两种。基于闪烁晶体的间接X射线探测方法是先将X射线转换为可见光,然后通过CMOS或者CCD图像传感器将可见光信号转换为电信号。由于闪烁晶体中生成的可见光会发生散射,而且需要将X射
随着互联网和计算机网络使用的增长,网络安全威胁变得更加频繁。无论从经济、信息安全还是国家安全的角度来看,网络安全已经成为一个全球性问题。严峻的网络安全态势,促使科研人员和网络安全公司研发了大量软件与解决方案。然而网络攻击手段的丰富与技术的发展,使得新兴的网络攻击很容易绕过传统的防御措施。而这些防御系统彼此独立工作且各自为战,在产生大量日志警报的同时并不能有效提炼威胁情报。为充分利用威胁情报,需对威
骨龄是以骨骼为参照,度量生命体健康生长发育情况的一个指标,能够反映生命体生理上成长发育的水平。并且,相较于其他年龄段来说,十八岁以下儿童的骨骼生长发育情况尤为剧烈。因此,医生可以通过察看左手X光片掌骨、指骨、腕骨以及桡骨尺骨末端等区域的骨化中心生长情况,对儿童患者的骨龄进行较为准确的评估。骨龄评估可以帮助诊断儿童内分泌紊乱、遗传和代谢等疾病,因此在临床上的应用十分广泛。临床上通常使用GP图谱法、T
风力发电技术作为一种环境友好型新能源发电技术,具有广阔的发展前景。同时,风能资源的丰富性,使其得到规模化的开发和广泛的使用。但是,大规模的风电并网也给电网带来了许多挑战,无功电压的协调控制便是其中之一。风能资源的随机性和波动性、负载大小的变化、线路的故障等都是引起电压波动的原因。因此,如何控制电压的稳定性尤其是并网点电压的稳定性是一直以来风电并网问题的研究热点。控制电压稳定的主要方法是无功功率补偿
桥面板作为桥梁结构中直接承受车辆荷载的部位,其工作状态对桥梁结构的安全性和耐久性至关重要。为了提高桥梁结构的整体受力性能,提出了具有自重轻、承载力高的波形钢-UHPC组合桥面板。针对该桥面板的界面受剪性能研究,通过理论分析和非线性数值模拟等方法,计算了栓钉型和PBL型波形钢-UHPC组合桥面板的界面抗剪承载力,并且探讨了影响该桥面板界面受剪性能的主要因素。本文的主要研究内容如下:(1)栓钉型波形钢
背景和目的胆固醇是细胞膜的重要组成部分,本身具有形成结晶的特性。动脉粥样硬化(Atherosclerosis,AS)斑块内胆固醇结晶(Cholesterol crystals,CCs)脱落随血流进入肾脏组织,可沉积于肾小动脉中,直接阻塞血流和/或引起炎症致肾单位丢失。因常规病理切片制备过程使用有机溶剂可使CCs溶解,使其光镜下常表现为狭长、两头尖、腰部凸的梭形空隙这一独特的形态学改变。有关肾脏血管
目的:本临床研究旨在通过分析特应性皮炎患者在治疗前后肠道菌群的变化并与健康对照组对比,从而明确特应性皮炎患者的肠道菌群特征,探究与病情、疗效相关的肠道菌群特点并探索参与特应性皮炎异常免疫反应的可能关键菌群。方法:收集2019年4月-2019年8月就诊于东部战区总医院皮肤科门诊的特应性皮炎患者,根据纳入与排除标准分别设置实验组和对照组,其中对照组为健康志愿者,统计分析患者基本信息,同时两组患者均留取
外泌体内含的microRNA(miRNA)具有肿瘤特异性的表达谱,且在肿瘤发生和进展中发挥重要作用。检测外泌体中miRNA的表达水平能为肿瘤的诊断和治疗提供关键的依据。本论文的工作以发展灵敏度高、可靠性好、适用性强的外泌体miRNA检测技术为目标,利用功能化的纳米探针建立了一类基于表面增强拉曼散射(SERS)和单分子荧光(SMF)的新型miRNA-21(mi R-21)光学检测方法,成功地实现了m