面向学术大数据的热点发现方法研究及应用

来源 :吉林大学 | 被引量 : 0次 | 上传用户:daxiaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
创新是科技发展和社会进步的核心驱动力。对科研人员而言,紧追当前最新的学术热点,不断发现新问题并提出新方法,是保持学术创新的主要途径。据不完全统计,2018年全球发表的学术论文量已达到300万余篇。除此之外,学术信息还包括新闻、博客等。面对大量的学术数据,研究人员如何快速高效地找到感兴趣的信息是一个难题。解决此问题的一个有效方法是:基于少量的文本挖掘出符合文章含义的关键词,从学术大数据中找到当前的研究热点并推荐给相关学者。基于上述思想,本文的主要研究内容如下:(1)提出了基于DeepWalk的关键词提取算法。关键词提取是发现学术热点的主要技术。然而,由于新兴研究领域的学术论文相对较少,文章之间的关键词共现关系难以捕捉。不同于已有方法,本文将每篇文章作为单独的个体进行关键词提取。具体步骤为:首先,在由单篇文章构成的语义网络中,采用随机游走的策略获取每个词汇的特征向量;然后,结合词汇的其它附属特征,通过分类器选取排名较高的词汇作为该论文的关键词。(2)提出了基于图卷积网络的关键词提取算法。本算法首次将图卷积网络应用在关键词提取的问题上。当某个研究领域相对成熟时,领域内所包含的相关文章数量较多,不同文章中的词汇存在着复杂的共现关系。本文首先将这种关系建模为词汇之间的共现网络。之后,结合词汇的属性信息,使用图卷积网络提取每篇文章的关键词。(3)提出了面向主题聚类的学术热点发现算法。基于上述两种关键词提取方法,对新兴和已有研究领域的关键词进行提取。在此基础上,采用K-Means聚类算法将不同领域的热门关键词进行聚类,从而得到不同研究领域最新的热门研究主题。上述三个工作是吉林省重点科技研发项目“大数据和移动互联时代的快速知识共享系统研究、开发与应用”的重要组成部分。本文将上述工作加入到“学术头条”APP(http://www.acheadline.com/)的开发中,取得了良好的效果。目前APP拥有7200余名用户、410多万篇论文、6000多种期刊、300多种会议、670万以上的学术作者以及140万以上的关键词。此外,本文基于人工数据集和公开数据集,从准确率、召回率和F1值3种指标角度,对所提算法的有效性进行了充分验证。
其他文献
文章以苏北里下河地区为例,对历史时期区域人地关系做分析,意在分析历史区域人地关系形成原因和相互作用过程。里下河区域河渠的淤塞与射阳湖的淤泥沉积,黄河南泛的积水难以
<正>1978-2008年,我们中的大多数人没有错过这一段惊喜的旅程。当往事与现实纠结在一起,那些历史本身的人物与事件、情景与细节,才更加丰富、生动。记者于9月11日赶赴杭州,采
期刊
瑕疵证据制度是证据制度的重要组成部分。“两个证据规定”对瑕疵证据的规定引发了学界对瑕疵证据的热议。瑕疵证据是介于合法证据与非法证据之间的证据,其解决的主要是证据
设计一种差动电容式位移测量传感器转换电路,主要对差动电容的检测模型以及差动容量检测电路进行仿真研究。转换电路设计主要包括正弦信号发生电路,二极管环形检波电桥,差分
<正> “随证治之”虽是对坏病而言,但在《伤寒论》中具有普遍意义,是全书辨证论治的精华之一,因此有必要加以探索。一,脉证不变,治法不变随证治之的内容之一是脉证不变,治法
随着社会的进步、城市化进程的加快,人们的生活水平不断提高。种植屋面对扩大城市绿化面积、美化城市、提高城市环境质量起着积极的作用。详细介绍种植屋面的三种种植类型,并
革命战争年代,人民军队奖励工作基本上是各战略区搞,且形式、种类各异,确定的准则、等级及批准权限不同,甚至团级单位都有权授予集体或个人荣誉称号,有的部队还颁发过毛泽东奖章、
报纸
采用NaCl-KCl熔盐法制备了生长各向异性的片状Bi4Ti3O12粉体。研究了预烧温度及熔盐含量对粉体形貌及显微结构的影响。结果表明,750℃预烧所得Bi4Ti3O12粉体为单一的钙钛矿型
绿地的建植与发展,逐步由传统园林模式向人工模拟自然植物生态群落、向满足休闲、健身、游憩与文化领域发展,街头广场和休闲绿地因其贴近生活、交通便捷、布局灵活、形式多样