论文部分内容阅读
微博以其高效的传播效率和近似即时的信息获取速度获得广大用户的喜爱。由于微博消息可通过多种智能移动终端发布,所以多数热点话题在微博平台上能近乎实时的体现出来。微博平台每日产生大量的数据,用户想通过浏览大量微博信息从而中获取当前热点话题是非常困难的,如果能从大量微博中发现热点话题,就能帮助用户迅速了解当前社会热点。因此,论文开展微博热点话题发现,具有很好的研究和实际意义。 论文设计实现了基于WebMagic爬虫框架的网络爬虫爬取微博信息,并根据微博信息数据特点对其进行了数据清洗、分词和本地词库过滤等数据预处理工作。对预处理后的微博数据建立哈希表结构以计算对应的TFIDF权值矩阵,并对权值矩阵计算过程进行MapReduce化处理,以解决TFIDF权值计算在时间复杂度和空间复杂度上的瓶颈问题;此外,分别采用BRICH层次聚类算法和K-Means聚类算法对TFIDF权值矩阵进行聚类,并将K-Means算法进行MapReduce化处理,结合卡方检验计算微博文档聚类簇的突发值以发现热点聚类簇,最终从热点聚类簇中提取出若干出现频次高的词即热点词作为热点话题。 最后,为了验证热点话题发现方法的有效性,论文采用微博的评论数和转发数计算出微博热度值从而找出热点微博,通过比较热点词所在微博是否为热点微博验证热点词是否为热点话题。结果表明论文提出的微博热点话题发现方法对某领域内热点话题发现具有较好的效果。