论文部分内容阅读
自媒体作为有一种不同于主流媒体的新型媒体传播方式,日渐被越来越多的人们所接受。在个性化鲜明的今天,人们越来越重视对事物的独立思考,更多的大众不愿意被一个统一的声音告知对与错,他们更愿意依据客观事实以及自己的思考对事物做出是非判断。所以,自媒体中的信息更加能够反映时下社会关注趋势以及舆论风向。在此背景下,及时的发掘出时下自媒体话题的热点,有助于将这些信息用于引导人们的生产生活,譬如个人的投资行为、大众的出行行为、以及政府对舆论的引导都可以得到优化。面对网络中铺天盖地的自媒体内容,传统的方式已经不能胜任对海量信息搜集和处理的工作。海量的信息需要高效、实时的处理才能产生经济效益和正面的社会价值。Hadoop在分布式海量数据存储和处理中拥有高效的性能,利用Hadoop可以有效的解决传统方式带来的困难,帮助我们在海量的自媒体信息中提取有价值的信息。R语言擅长统计、计算、制图,R语言的重点是对样本数据的分析,,利用R语言可以有效地完成文本分类任务。本课题来源于成都市经信委。属于实验室与某研究所的联合项目。课题重在研究和实现基于Hadoop和R语言的自媒体信息挖掘系统。本文从数据的搜集、存储、挖掘、分析、展示等各个环节入手,详细的描述整个研究过程。本课题的主要工作如下:(1)借助Nutch爬虫抓取自媒体站点内容。利用HTML Parser工具对抓取的网页内容进行处理并对其结构化存储,按照XML的形式存放文本信息。(2)对网页文本分词处理,并进行特征化提取,借助TF-IDF对词条加权,最后形成向量空间,为后续的分类和聚类做好准备。(3)将Java环境和R语言结合使用,打通两者边界。借助Java调用R语言对向量空间进行计算得到分类信息。借助Hadoop的Mahout框架对目标向量进行聚类,获取热点信息。详细的给出分类和聚类效果图。(4)使用SpringMVC构建基于J2EE的热点展示系统,提供热点分类、热点展示、热点趋势统计功能