一种Spark GraphX框架下的关键词抽取方法

来源 :小型微型计算机系统 | 被引量 : 0次 | 上传用户:zgb99
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
TextRank算法根据文本词语的位置关系构造图,应用图排序的算法计算出词语的权重,在计算过程中需要进行大量的迭代运算,在数据规模较大的时候,计算时间尤为可观.针对此问题,提出了一种基于Spark GraphX的关键词抽取方法,利用Spark GarpX所提供的分布式计算的图框架,将文本图数据分布式存储在不同的节点上,高效地实现了文本关键词的抽取.实验表明,本文中提出的基于Spark GraphX的关键词抽取方法,不仅计算时间短,抽取的关键词与人工标注的结果非常接近,具有一定的合理性.
其他文献
【目的】明确隆安县板栗果实病害及采前落果原因,并筛选出有效防治板栗果实病害及落果的药剂,为板栗果实病害及采前落果防治提供科学依据。【方法】通过对14年生板栗实地调查
阐述了用激光主动扫描法侦察远方(隐蔽的)观察、瞄准仪器的原理及实验技术.以红外物镜为例,运用矩阵光学追迹法对影响"猫眼"效应回波强度的因素作定性、定量分析.研究结果表
环境代际公平是可持续发展的重复要思想之一。本文根据代际公平概念建立环境代际公平判断模型,定义了环境代际公平度和环境代际冲突度的概念,把模型运用到晋陕蒙接壤区,判断该区
为探讨补肾中药影响骨形成的机制,将SD大鼠随机分为正常组、生理盐水组、单味补阳组(固本壮骨胶囊)、复方补阳组(金匮肾气丸)、复方平补组(补肾益精方)、复方补阴组(知柏地黄
为解决多雇主的软件系统需求优选问题,使得所有雇主同时达到最优满意度,提出基于存档的NSGA-Ⅱ算法,通过将多雇主需求优选问题定义为多目标优化问题,自动而有效地求解满足数
研究采用UML(Unified Modeling Language,统一建模语言)构造科学合理的基于WEB的课件资源管理体系,设计和建立了通用的网络课件资源管理系统模型案例,提供通用性能良好的原型系统
近年来,随着国内生产要素成本的不断提高、货币流动性过剩和受到国外输入性通胀因素影响,我国诸多商品纷纷呈现出价格普遍上涨态势。平心而论,此类价格上涨现象主要仍属市场规律
灵壁一中是一所省级示范高中,教学设施、师资队伍、教育质量在一个市的范围内还是有点名气的。下面结合我校的实际.谈谈教育均衡发展中名校的引领作用。
发现式学习和接受式学习是较有影响的现代学习理论,其相应的教学方法即发现式教学法和接受式教学法既各有特点又有内在联系。在实际教学过程中,合理地将两种教学方法相结合、交
阐述粮食质量安全的重要性,分析粮食从生产到销售各环节出现的质量安全问题,并给出合理化建议。