【摘 要】
:
文中设计并实现了一种基于Hadoop的网络舆情监控系统。该系统以HDFS作为底层存储系统,在其上构建基于HBase的分布式数据库对舆情信息进行统一存储管理。首先利用基于MapReduc
【基金项目】
:
山东省科学院青年基金项目(2013QN036);山东省科技发展计划(2013GGX10127,2014GGX101013)
论文部分内容阅读
文中设计并实现了一种基于Hadoop的网络舆情监控系统。该系统以HDFS作为底层存储系统,在其上构建基于HBase的分布式数据库对舆情信息进行统一存储管理。首先利用基于MapReduce的分布式网络爬虫进行数据抓取,以解决单机爬虫效率低、可扩展性差等问题;其次采用Canopy结合K-means的二次聚类算法,克服单一K-means聚类算法的不足,以提高文本聚类的效率和准确度;最后实现基于查询的话题追踪策略,对热点话题进行有效跟踪分析。仿真实验表明:Canopy-Kmeans聚类方法比传统K-means方法漏报率、误报率分别降低1.24%、0.09%,最小标准代价降低1.681%。系统通过提供可视化舆情分析报告,为企业或单位及时掌握舆情热点、制定舆情策略提供科学、系统的技术支持。
其他文献
占有保护请求权从性质上可以区分为两类:物上请求权和债权请求权。而从具体的权利上看,占有物返还请求权、占有妨害除去请求权以及占有妨害防止请求权性质上属于物上请求权,
现阶段,我国建筑工程的项目量与日俱增,而且各个项目工程的规模也越来越大,结构模式也较以往有了很大的改变。在这种情况下,传统的管理模式和技术手段受到严重的冲击,本文对
<正>核心提示近年来,"灰犀牛"和"黑天鹅"事件层出不穷,冲击着我国各行各业的风险底线。改革开放至今,尤其是近20年,我国造纸行业总体上处于高速增长阶段,发展的同时也伴随着
高中数学的学习抽象性较强,特别是在高三数学复习中,基础知识复习速度快,基础薄弱的同学复习效果较差。本文在阐述思维导图的概念及其特点的基础上,分析了高三数学复习中存在
<正>"如果你的心灵刀枪不入,坚强无比,那就是一块什么都不长的盐碱地了",读罢此句,我不由得想起上课时永远是一幅神游状态,冷漠表情的阿平。初见阿平,没什么深刻印象,只觉得
目的:探讨新活素联合地高辛对扩张型心肌病心衰患者心功能及氨基末端B型钠尿肽前体(NT-proBNP)影响。方法:扩张型心肌病(DCM)心衰患者104例采用随机数字法将其分为对照组和观
随着招生规模的不断扩大,各高校学生的整体素质有所下降,并且个体差异很大,这给高等数学教学带了前所未有的难度,为了改变这一现状,一些院校开展了分层次教学改革的尝试,笔者
畜禽产品是北京市民消费的主要农副产品,长期以来,厂商直销和中间商代销是主要的销售模式。物流损耗大、流通成本较高、流通渠道长、交易方式简单等问题影响畜禽产品的生产和销
本文基于对2006、2007两年的两会代表博客内容、分类、数量与趋势的分析,对比前博客时代的政治参与,研究了两会代表博客作为新型的政治参与渠道的参政模式与优势、参政效果及