基于Hadoop的微博热点话题情感分类系统的研究与实现

来源 :暨南大学 | 被引量 : 0次 | 上传用户:tiantianle_a
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅速发展,社交网络逐渐成为一种快速便捷的信息分享和交互平台。作为当前国内社交网络巨头之一,新浪微博热门话题的讨论提升了微博用户的参与感和活跃程度,形成了一个和用户关系密切相关的传播网络,这个网络在一定程度上反映了微博信息的传播方式和情感倾向。因此,对该网络的调研和对某话题的情感分类是一个很有意义的研究课题。然而,由于数据量巨大,分析处理通常需要较长的时间开销,现有传统技术和方法难以有效完成大规模微博数据的处理,而本文讨论的Hadoop平台可以为大规模微博数据处理提供有效的技术手段,实现较快的微博热点话题情感分类。  首先,本文对Hadoop平台及其两大核心组件MapReduce并行计算框架和HDFS分布式文件存储系统予以研究讨论,并阐述了朴素贝叶斯分类算法的原理和工作流程。在计算特征词的概率矩阵时,经典的TFIDF方法将数据集作为一个整体来考虑,影响了情感分类结果。故本文中研究了训练集中的数据在类中和类间的分布偏差,提出了针对TFIDF的改进方案,给出朴素贝叶斯分类并行化的总体流程以及具体算法。其次,为观察集群负载能力和改进算法的分类准确率情况,文中使用测试数据集设计多组实验对其进行情感分类,在分类过程中的不同阶段分别观察了系统各节点在不同数据集情况下的负载能力,证实了Hadoop集群处理大数据的可扩展性和优越性。同时也测试了贝叶斯分类器并行化之后的准确性,实验表明,改进后的贝叶斯分类器分类准确率相比较经典朴素贝叶斯分类器有明显改善,且在一定范围内,随着数据集容量的不断增大,算法的分类准确率会逐渐平稳升高并最终稳定在90%左右。最后,基于上述理论和实验研究,讨论了基于Hadoop的微博热点话题情感分类系统的架构与实现,在层次设计上包括表现层、业务逻辑层、DAO层和数据层,具体实现时采用JavaEE编程思想和B/S模式搭建完整的系统,系统包含本地数据加载、情感分析分类、用户管理和集群信息监督四大模块。最后使用新浪微博真实数据验证了系统具有较高的分类准确率。
其他文献
期刊
随着移动通信技术的迅速发展,无线定位技术已经成为下一代移动通信系统所必须具备的功能。近年来的研究结果表明,由于对移动台(MS)和基站(BS)无严格时间同步要求,TDOA定位法
随着现代通信技术的不断发展、智能手机等便携式终端的不断普及,人们对于基于位置的服务需求越来越强烈,特别是在室内场所中,利用位置服务获取所需要的信息,已经成为人们生活
随着现代通信技术、多媒体技术的迅猛发展和计算机微型化的进步,短距离高速率无线穿戴式信息网络已成为一个研究的热点。穿戴式信息网络是一类超微型,可穿戴的移动信息通信系统
认知无线电基于感知的频谱共享接入能够根据频谱感知结果灵活分配传输功率,从而有效提高授权频谱利用率,是认知无线电技术的重要发展方向之一。这种接入方式既能严格限制功率传
期刊
异步无线传感器网络在监测区域内监测数据,但是却不能够将监测数据实时地传送给授权节点,因而,数据需要存储于网络之中。然而,鉴于传感器节点的资源受限,需要尽可能地减少网络中存
随着移动通信的不断发展和信息处理技术的不断进步,人们已不满足于传统的文本、语音业务,能够实时的获得视频信息是人们期望得到的一项新型通信服务。移动视频业务的开展不但
认知无线电网络中主用户的随机出现会随时中断授权频带中认知用户通信服务,因此,频谱切换技术是保证认知无线电网络中认知用户通信连续性的关键技术。本论文的主要研究工作如
期刊