论文部分内容阅读
创新是科技发展和社会进步的核心驱动力。对科研人员而言,紧追当前最新的学术热点,不断发现新问题并提出新方法,是保持学术创新的主要途径。据不完全统计,2018年全球发表的学术论文量已达到300万余篇。除此之外,学术信息还包括新闻、博客等。面对大量的学术数据,研究人员如何快速高效地找到感兴趣的信息是一个难题。解决此问题的一个有效方法是:基于少量的文本挖掘出符合文章含义的关键词,从学术大数据中找到当前的研究热点并推荐给相关学者。基于上述思想,本文的主要研究内容如下:(1)提出了基于DeepWalk的关键词提取算法。关键词提取是发现学术热点的主要技术。然而,由于新兴研究领域的学术论文相对较少,文章之间的关键词共现关系难以捕捉。不同于已有方法,本文将每篇文章作为单独的个体进行关键词提取。具体步骤为:首先,在由单篇文章构成的语义网络中,采用随机游走的策略获取每个词汇的特征向量;然后,结合词汇的其它附属特征,通过分类器选取排名较高的词汇作为该论文的关键词。(2)提出了基于图卷积网络的关键词提取算法。本算法首次将图卷积网络应用在关键词提取的问题上。当某个研究领域相对成熟时,领域内所包含的相关文章数量较多,不同文章中的词汇存在着复杂的共现关系。本文首先将这种关系建模为词汇之间的共现网络。之后,结合词汇的属性信息,使用图卷积网络提取每篇文章的关键词。(3)提出了面向主题聚类的学术热点发现算法。基于上述两种关键词提取方法,对新兴和已有研究领域的关键词进行提取。在此基础上,采用K-Means聚类算法将不同领域的热门关键词进行聚类,从而得到不同研究领域最新的热门研究主题。上述三个工作是吉林省重点科技研发项目“大数据和移动互联时代的快速知识共享系统研究、开发与应用”的重要组成部分。本文将上述工作加入到“学术头条”APP(http://www.acheadline.com/)的开发中,取得了良好的效果。目前APP拥有7200余名用户、410多万篇论文、6000多种期刊、300多种会议、670万以上的学术作者以及140万以上的关键词。此外,本文基于人工数据集和公开数据集,从准确率、召回率和F1值3种指标角度,对所提算法的有效性进行了充分验证。