基于Hadoop和R语言的网络自媒体热点挖掘系统的设计与实现

被引量 : 14次 | 上传用户:xsxiaomo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自媒体作为有一种不同于主流媒体的新型媒体传播方式,日渐被越来越多的人们所接受。在个性化鲜明的今天,人们越来越重视对事物的独立思考,更多的大众不愿意被一个统一的声音告知对与错,他们更愿意依据客观事实以及自己的思考对事物做出是非判断。所以,自媒体中的信息更加能够反映时下社会关注趋势以及舆论风向。在此背景下,及时的发掘出时下自媒体话题的热点,有助于将这些信息用于引导人们的生产生活,譬如个人的投资行为、大众的出行行为、以及政府对舆论的引导都可以得到优化。面对网络中铺天盖地的自媒体内容,传统的方式已经不能胜任对海量信息搜集和处理的工作。海量的信息需要高效、实时的处理才能产生经济效益和正面的社会价值。Hadoop在分布式海量数据存储和处理中拥有高效的性能,利用Hadoop可以有效的解决传统方式带来的困难,帮助我们在海量的自媒体信息中提取有价值的信息。R语言擅长统计、计算、制图,R语言的重点是对样本数据的分析,,利用R语言可以有效地完成文本分类任务。本课题来源于成都市经信委。属于实验室与某研究所的联合项目。课题重在研究和实现基于Hadoop和R语言的自媒体信息挖掘系统。本文从数据的搜集、存储、挖掘、分析、展示等各个环节入手,详细的描述整个研究过程。本课题的主要工作如下:(1)借助Nutch爬虫抓取自媒体站点内容。利用HTML Parser工具对抓取的网页内容进行处理并对其结构化存储,按照XML的形式存放文本信息。(2)对网页文本分词处理,并进行特征化提取,借助TF-IDF对词条加权,最后形成向量空间,为后续的分类和聚类做好准备。(3)将Java环境和R语言结合使用,打通两者边界。借助Java调用R语言对向量空间进行计算得到分类信息。借助Hadoop的Mahout框架对目标向量进行聚类,获取热点信息。详细的给出分类和聚类效果图。(4)使用SpringMVC构建基于J2EE的热点展示系统,提供热点分类、热点展示、热点趋势统计功能
其他文献
采用大型静动力简单剪切仪,对某面板堆石坝灰岩堆石料进行了动剪切模量阻尼比试验和动残余变形试验。试验资料表明,堆石料的模量阻尼特性采用修正等价黏弹性模型描述可取得较
<正>1.我左眼见到鬼你既然能够在画中看见旁人都看不到的景致,恐怕你就是那位传说中的"通灵姬"了。进藤光无意中发现了一个带有血痕的古老围棋棋盘,但上面的血痕只有他一个人
目的:比较瑞格列奈分别联合氨氯地平、氯沙坦钾治疗2型糖尿病(T2DM)合并原发性高血压的疗效和安全性。方法:306例T2DM合并原发性高血压患者随机分为A组(153例)和B组(153例)。
碳纤维增强复合材料在服役过程中容易受到低速冲击,造成基体开裂、纤维断裂、分层等多种表面不可见的内嵌损伤。这些损伤导致复合材料的强度及刚度大幅度下降,严重削弱了结构
目前我国应用型本科院校思政教育与专业实践,无论是在培养体系,还是在专业培养计划制定、课程设置体系等方面各行其是,各行其道。这种互不相干的割裂现状,已成为应用型本科院校为
随着工业的发展,人们对铝合金材料的综合性能要求越来越高。Al-Mg-Si-Fe合金属于Al-Mg-Si系铝合金,是一种变形铝合金,主要用于热挤压生产建筑及工业铝型材,对硬度、强度及耐
力-位移分控多点成形是本课题组在传统多点成形的基础上提出的一种新的多点成形技术。在这种成形技术中,上下基本体对位移和力分别控制,目标曲面不同时,上下基本体的位移-时
传统思想政治教育在"互联网+"时代受到了极大的冲击,如何将高校传统思想政治教育与互联网这一人类生活的最新产物结合起来,有效发挥高校作为思想政治教育的主体性,使其拥有更
介绍了日本园林植物的种类、造景方法、植物景观特色、园林植物的应用,并探讨了日本园林对我国园林建设的借鉴意义。
自企业异质性理论提出后,生产率被认为是决定企业国际化的最重要因素。本文运用2010年中国制造业百强企业微观数据,基于拓展的企业异质性模型,考察了影响中国制造业企业对外