基于主题模型的科技文献分析挖掘方法研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:jeffzhangjf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技和网络的发展,科技文献的数量呈爆炸式增长。利用数据挖掘、文本分析以及大数据等技术对科技文献语料进行分析挖掘能发现热门研究领域、挖掘领域热点文章和把握专家研究方向等。因此科技文献分析研究有重要的研究意义与应用价值。其中,关键词抽取和作者主题分析是科技文献分析中的两大基础任务。然而现有的一些关键词抽取算法效果并不理想,作者主题分析也受限于作者主题模型在大规模场景下模型训练耗时长的问题。在此背景下,本文聚焦于科技文献关键词抽取和大规模作者主题分析研究。针对科技文献关键词抽取研究,本文提出一种无监督的基于短语主题评分的科技文献关键词抽取算法。在分析关键词特点之后,算法对候选关键词进行了筛选。算法主要利用LDA主题模型对语料建模,根据每个文档的主题信息建立基于短语的关系图,并利用权重PageRank算法推荐候选关键词。实验分析了算法的相关参数候选关键词筛选阈值、PageRank阻尼系数值和主题数目对关键词抽取结果的影响。结果表明,本文提出的关键词抽取算法相比于TextRank和TopicRank算法在一些数据集上抽取效果有显著提升。针对作者主题分析,本文主要基于作者主题模型进行了大规模语料作者主题分析研究。由于作者主题模型训练是二维采样,训练复杂度高,大规模语料下存在模型训练耗时长和单机无法训练等问题,因此需要对作者主题模型进行采样优化和并行化训练。通过对作者主题模型采样优化研究,本文提出一种延迟更新采样思想及相应的吉布斯采样算法MCATM,并基于此思想提出两种改进的优化采样算法 MHATM 和 ErgodicATM。MHATM 利用 Metropolis-Hastings 的采样思想和作者主题分布的稀疏性降低采样复杂度,ErgodicATM通过将二维采样拆分来降低采样复杂度。实验结果表明,MCATM、MHATM和ErgodicATM算法可与作者主题模型的原始吉布斯采样算法达到相同收敛程度,以此证明了三个采样算法的正确性。且所提采样算法能有效降低采样复杂度,提高采样效率。最后,本文在Spark大数据平台上设计实现了一套作者主题模型采样框架,该采样框架采用类似参数服务器思想来更新和传输全局计数参数;基于此框架,本文设计实现了 MCATM、MHATM和ErgodicATM采样并行化算法,完成了作者主题模型的并行化训练。实验结果表明,本文提出的作者主题模型并行化训练算法和框架能很好地解决大规模语料下作者主题分析问题,并具有良好的数据扩展性、主题扩展性以及节点扩展性。
其他文献
串列双柱结构广泛存在于海洋工程(海底管道及立管)中,柱群结构在海洋工程中受到越来越多的关注,双柱结构作为最简单的柱群类型,其振动响应与孤立存在的柱体势必不同。国内外
苦瓜(Momordica L)是葫芦科苦瓜属的一个栽培种,一年生攀援性草本植物,广泛分布在热带和亚热带地区。我国南方冬春两季持续低温是影响人工设施大棚内苦瓜生长、发育、产量与
新型人工电磁材料由亚波长的电磁谐振单元组成,具有自然界材料难以实现的电磁特性,如负折射率、完美成像、隐身等。通过对谐振单元的设计,可以在特定频段实现任意的磁导率和
随着全球社会和经济的迅猛发展,化石能源快速消耗给环境造成了严重的污染。经研究发现,半导体光催化技术能实现低密度太阳能向高密度化学能的转化,被认为是目前最有前途,且能
残植煤是以壳质组含量高为基本特点的一种特殊煤种和稀缺煤类,目前缺乏系统研究。本文在深入研究贵州大河边残植煤的煤化学性质、煤岩学特征、溶剂抽提条件及产物特点的基础
近几十年来,反应扩散系统的行波解得到了学者们的广泛关注.行波解是一种特殊形式的平移不变解.在数学理论的研究中,行波解可以揭示系统本身的很多重要性质.在实际应用中,行波
对化工过程进行实时监控与故障诊断,确保生产过程的稳定性与安全性,是现代化工生产中一个热点研究问题。由于许多化工系统都具有多模态的性质,例如液位控制系统、连续搅拌反应器系统、聚合反应过程系统等,因而实际的化工系统均可建模为具有多模态性质的切换系统模型。本文首先给出了液位控制系统建模为切换系统的过程,然后基于未知输入观测器(Unknown Input Observer,UIO)的方法研究了液位控制系统
噻虫嗪和啶虫脒属于新烟碱类杀虫剂,其作用方式是通过抑制乙酰胆碱酯酶活性,从而干扰昆虫神经信号传导,达到致死目的。因其速度快、持效期长、杀虫谱宽以及对哺乳动物低毒等优点,在农业生产上被广泛使用,从而造成农产品中可能会发生噻虫嗪和啶虫脒残留。因此,亟需建立一种快速、灵敏的免疫分析方法,以实现对农产品中噻虫嗪和啶虫脒残留筛查。本文研究主要包括两部分内容,一是利用合成的噻虫嗪人工抗原免疫BALB/c小鼠,
随着中国经济体制的转型,中国家庭财富迅速积累,中国财富总量在全球财富中已经占有了举足轻重的比例,但随之而来的家庭财富不平等问题也日益瞩目,财富不平等已成为时下最广泛
黄曲霉菌及其次生代谢产物—黄曲霉毒素对农业发展和人类健康构成严重威胁,研究其中关键蛋白的结构与功能不仅对食品安全的维护具有极其重要的实际意义,还将对黄曲霉生长机制