论文部分内容阅读
随着科技和网络的发展,科技文献的数量呈爆炸式增长。利用数据挖掘、文本分析以及大数据等技术对科技文献语料进行分析挖掘能发现热门研究领域、挖掘领域热点文章和把握专家研究方向等。因此科技文献分析研究有重要的研究意义与应用价值。其中,关键词抽取和作者主题分析是科技文献分析中的两大基础任务。然而现有的一些关键词抽取算法效果并不理想,作者主题分析也受限于作者主题模型在大规模场景下模型训练耗时长的问题。在此背景下,本文聚焦于科技文献关键词抽取和大规模作者主题分析研究。针对科技文献关键词抽取研究,本文提出一种无监督的基于短语主题评分的科技文献关键词抽取算法。在分析关键词特点之后,算法对候选关键词进行了筛选。算法主要利用LDA主题模型对语料建模,根据每个文档的主题信息建立基于短语的关系图,并利用权重PageRank算法推荐候选关键词。实验分析了算法的相关参数候选关键词筛选阈值、PageRank阻尼系数值和主题数目对关键词抽取结果的影响。结果表明,本文提出的关键词抽取算法相比于TextRank和TopicRank算法在一些数据集上抽取效果有显著提升。针对作者主题分析,本文主要基于作者主题模型进行了大规模语料作者主题分析研究。由于作者主题模型训练是二维采样,训练复杂度高,大规模语料下存在模型训练耗时长和单机无法训练等问题,因此需要对作者主题模型进行采样优化和并行化训练。通过对作者主题模型采样优化研究,本文提出一种延迟更新采样思想及相应的吉布斯采样算法MCATM,并基于此思想提出两种改进的优化采样算法 MHATM 和 ErgodicATM。MHATM 利用 Metropolis-Hastings 的采样思想和作者主题分布的稀疏性降低采样复杂度,ErgodicATM通过将二维采样拆分来降低采样复杂度。实验结果表明,MCATM、MHATM和ErgodicATM算法可与作者主题模型的原始吉布斯采样算法达到相同收敛程度,以此证明了三个采样算法的正确性。且所提采样算法能有效降低采样复杂度,提高采样效率。最后,本文在Spark大数据平台上设计实现了一套作者主题模型采样框架,该采样框架采用类似参数服务器思想来更新和传输全局计数参数;基于此框架,本文设计实现了 MCATM、MHATM和ErgodicATM采样并行化算法,完成了作者主题模型的并行化训练。实验结果表明,本文提出的作者主题模型并行化训练算法和框架能很好地解决大规模语料下作者主题分析问题,并具有良好的数据扩展性、主题扩展性以及节点扩展性。