基于BERT和Citation-LDA的中文社科论文分析系统的设计与实现

来源 :南京大学 | 被引量 : 0次 | 上传用户:badgod
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今论文库在快速地更新,其中也产生了更多的研究领域,所以了解研究主题随着时间的推移如何演变变得十分重要。因此需要开发一套专门的系统来挖掘某一研究领域的学术流变和知识流动网络,去发现新兴的主要研究趋势和具有重要影响力的里程碑式论文。目前国内有关社科论文的分析工作,大多停留在对独立的数据集采取定量与定性评价相结合的方法进行统计分析,而缺少对数据集之间进行关联分析,难以得到有效且直观的分析结果。不同于基本单位为词的英文单词,中文词汇的处理也将是系统中一个重要的待解决问题。本系统详细分析了社科论文的问题,并介绍了社科论文的数据特点,包括领域众多和领域内专业词汇较多等,所以通过简单的数据统计并不能发现主题演化等信息。本系统提出了针对社科论文特点的文本预处理方法,包括数据格式转换、分词、去除停用词以及建立各领域的专用词典。由于BERT与CitationLDA能较好地生成句向量并进行主题聚类,不同于普通的基于内容的LDA模型,利用引文信息的Citation-LDA模型能够极大的减少计算复杂度,并且由于利用了共引信息,所以模型更能发现主题下能够代表主题的里程碑式论文。因此本文的数据分析模块主要以文本表示模型以及主题模型为基础,通过对社科论文的题录信息和正文信息进行分析,挖掘核心论文以及学术流变相关信息。为此,系统采用了Word2Vec、BERT等模型生成向量帮助主题聚类,采用LDA与citation-LDA模型来分析主题依赖和主题的演化模式,并将此模块集成到整个系统中。系统还将完成文献检索、模型管理等功能,并开发设计开发分词训练模块,提供给专业人员使用,来帮助建立各领域的专用词典。本系统前端使用Vue.js与bootstrap框架来实现数据分析的可视化;后端使用Spring Boot框架来实现数据管理、模型管理的服务,使用Python语言编写数据分析模型与脚本;数据方面采用Elastic Search分布式引擎,用于数据存储搜索,数据集采用了南京大学数据中心提供的引文信息数据库以及经济学等社科领域的全文PDF文件。本人在系统中承担了后端代码编写、模型搭建、数据训练等工作。
其他文献
本研究在河北工程大学开展了56种挥发性有机物(VOCs)、氮氧化物(NOx)、臭氧(O_3)的长期在线监测,选取2017年9月-2018年8月在线监测数据,重点分析了邯郸市VOCs、O_3和NOx的污染特征、VOCs的主要来源、VOCs对O_3生成的影响以及8种有毒有害VOCs对人体健康的影响,主要得到以下结论:(1)监测期间,烷烃、烯烃、炔烃均呈冬季高夏季低的污染特征,芳香烃浓度秋季略高于冬季,
地下变电站由于环境协调性好,站址选择难度低等优势,成为大城市所需求的变电站类型。但是放置在地下变电站楼板上的电抗器在运行过程中产生的振动荷载可能会对建筑及工作人员产生影响。本文以某地下变电站为研究对象,对电抗器振动荷载作用下变电站建筑结构的振动响应进行了数值模拟研究。本文的主要研究内容包括以下几个方面:(1)通过搜集振动控制相关规范标准进行研究,得到一个适合地下变电站建筑的限值规定。(2)利用AN
语音是人类交流最常见的信息载体,并且随着智能化技术的发展,语音在人机交互中起着至关重要的作用。声纹识别,其本质是利用说话者的语音信息识别出说话人的身份。作为生物特征识别和认证领域的一个重要分支,声纹识别在刑侦排查,人机交互验证,考勤系统等方面有广泛的应用。声纹识别系统主要由语音特征提取和识别模型建立两部分构成。说话者的语音中包含个性信息和共性信息,个性信息差异主要是由发声器官的差异,发音习惯的不同
随着通信技术的不断进步,短波这种传统的通信方式也得到了快速发展,凭借其独特的优势一直备受重视。短波通信距离较远,是远程通信的主要手段之一,且是唯一一种不受网络枢纽和有源中继体制约的长距离通信方式。短波在民用和军事领域都被广泛运用,因此对短波信号的监听与侦测也就显得尤为重要。短波信号的监测与分析系统需要满足实时性、高速数据流、分布式显控等要求。高效的内存分配算法可以有效的提高实时系统的效率及稳定性。
视觉搜索过程中,注意不仅受到刺激物自下而上的引导,还受到记忆表征自上而下的引导。即使是与当前任务无关的工作记忆表征,也可引导注意。过往无关工作记忆表征引导注意的研究多关注刺激的颜色,任务的知觉负载,工作记忆负载等任务属性的作用,缺乏对个体差异性的关注。针对困难的搜索任务中出现的,搜索快组注意引导,搜索慢组注意抑制的现象,过往研究仅从时间维度解释,认为注意抑制的形成需要时间,忽视了个体差异因素的作用
随着人民币汇率市场化的不断推进,在放宽人民币汇率波动幅度的同时,汇率波动的加大是不可避免的。全球经济一体化的深入发展和我国金融市场化改革进程的持续推进又使得汇率市场和股票市场之间的联系越发紧密。在推动资本跨区域流动,刺激我国经济金融迅速发展的同时,也大大增加了汇市与股市之间的风险传递。从历史经验来看,在一些宏观经济环境下汇率市场和股票市场之间的互动,存在演化成金融危机的可能。因此,通过研究人民币汇
随着移动互联网用户群体的扩大,用户每天在线产生的数据无比庞大并且用户对于信息消费模式要求越来越高。在线服务提供商为了争夺用户使用时间,也需要更加精准的将用户感兴趣的内容投递给用户。在线搜索、商品推荐、新闻阅读等服务的背后都隐藏着庞大的数据需要计算机从中找出用户感兴趣的内容。这一切都需要依赖最近邻搜索算法。因此,本文设计了基于局部敏感哈希(LSH)和层次性可导航小世界图(HNSW)算法的近似最近邻分
近些年来,伴随着科学技术的飞速发展,经济全球化的速度大大加快,网上银行支付的优势也越来越明显,人们对于支付的需求不再仅仅局限于可以使用,支付步骤简单、使用门槛低、操作界面友好的网上银行支付系统成为了当今网上支付的主流。然而,依旧有一小部分的处于不发达地区的中小型银行的网上银行支付系统依旧停留在传统的网上银行支付层面。传统的网上银行支付系统有着功能老旧,界面不友好,支付流程繁琐等缺点,这些缺点也制约
ABO_3型钙钛矿过渡金属氧化物由于其广泛的物理特性,如铁电性、铁磁性、多铁性、高温超导和巨磁阻性等,成为凝聚态物理和材料科学研究的热点材料。随着人们对小型化和多功能化器件的日益需求,材料在纳米尺度下的制备与调控成为研究人员的探索方向之一。同时随着氧化物薄膜制备技术的飞速发展,研究者已经可以制备出高质量的原子尺度下的钙钛矿过渡金属氧化物超晶格。超晶格将具有不同性能的材料耦合在一起,并利用界面处电荷
当前中国经济已经取得了飞速发展,随之而来的是不断加快的城市化和工业化进程,社会面临日趋严重的环境污染问题。国家对环保产业的重视程度也越来越高,水处理、大气治理、生态治理等环保产业进入了快速发展时期。随着智慧水务新技术的逐渐兴起,传统水处理企业面临重大转型机遇。HT公司是传统的水处理设备生产企业,自90年代开始研发推出了用于水质消毒的水处理设备开始,不断研发推陈出新,现已具备多种水处理产品。HT公司