基于MapReduce并行计算提取文档特征Textrank算法研究

来源 :现代信息科技 | 被引量 : 0次 | 上传用户:yumeng88888888888888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Textrank相比词袋模型有独特的优势,但需要进行多轮迭代和递归运算,常规串行化算法无法满足大数据环境下文档处理的需求。必须借助大数据的分布式处理、并行化计算技术来应对这一挑战。本文学习研究了大数据平台Hadoop的分布式处理方式,并在MapReduce框架下实现并行了Textrank并行提取文档特征的算法。同时,本文就Textrank中关键的投票算法提出了MapReduce迭代实现。经在Hadoop集群上验证,在计算节点增加的情况下,该模式可有效提升Textrank算法效率。
其他文献
<正>区块链作为分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式,近年来在科技和金融领域受到广泛关注。当前在中国建设区块链应注意解决的有关
黑莓时不时在智能终端领域泛起涟漪,来证明自己还活着。近日,黑莓推出了一款名为“安全平板”(SecuTablet)的新平板电脑。它由黑莓和三星电子、IBM公司合作生产,主打安全性,针对企
随着各类社交媒体上的评论数据数量的急剧增加,从大量的评论数据中挖掘出其所包含的情感信息具有越来越高的商业价值。本文提出了一种基于卷积神经网络的社交媒体情感分类模
在各大互联网企业通过软硬件产品争相将触角伸向家庭,以聚拢流量创造新的入口时,传统物业公司在连接社区上具有举足轻重的节点作用,但落后的商业模式和不规范的行业体制又成为
相较于初中物理,高中物理涉及的范围更加宽广,增加了深度,添设了许多抽象的概念和定理,不仅需要学生有丰富和严谨的想象力,还需要学生有清晰的逻辑推理能力和良好的运算能力
(接上期)三、马克思哲学的新唯物主义性质:实践唯物主义如果我们可以把实体与主体的关系问题作为根本的哲学问题,并基于对这一真正的哲学基本问题的不同回答,把历史上的哲学家确
据不完全统计,我国每年因雷电侵袭而造成的直接经济损失在数百亿以上,由此而造成的间接经济损失难以估量,并且,随着信息技术的逐步发展,由雷害造成的损失呈上升趋势。因此,雷害成因及安全防护研究成为信息安全的一项重要内容,决不可等闲视之。一、计算机信息系统雷害成因与防护重心分析 计算机信息系统的雷害有三种:直击雷、传导雷和感应雷。直击雷是指雷云之间或雷云与地面某处之
各种固有矛盾的无法破解,不仅成为团购,更成为O 2O未来发展的巨大瓶颈,而这一切不是技术可以解决的美国团购网站Groupon在今年2月发布了该公司截至2014年12月31目的2014财年