微博热点话题发现的方法实现

来源 :南开大学 | 被引量 : 0次 | 上传用户:xyzsoft
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博以其高效的传播效率和近似即时的信息获取速度获得广大用户的喜爱。由于微博消息可通过多种智能移动终端发布,所以多数热点话题在微博平台上能近乎实时的体现出来。微博平台每日产生大量的数据,用户想通过浏览大量微博信息从而中获取当前热点话题是非常困难的,如果能从大量微博中发现热点话题,就能帮助用户迅速了解当前社会热点。因此,论文开展微博热点话题发现,具有很好的研究和实际意义。  论文设计实现了基于WebMagic爬虫框架的网络爬虫爬取微博信息,并根据微博信息数据特点对其进行了数据清洗、分词和本地词库过滤等数据预处理工作。对预处理后的微博数据建立哈希表结构以计算对应的TFIDF权值矩阵,并对权值矩阵计算过程进行MapReduce化处理,以解决TFIDF权值计算在时间复杂度和空间复杂度上的瓶颈问题;此外,分别采用BRICH层次聚类算法和K-Means聚类算法对TFIDF权值矩阵进行聚类,并将K-Means算法进行MapReduce化处理,结合卡方检验计算微博文档聚类簇的突发值以发现热点聚类簇,最终从热点聚类簇中提取出若干出现频次高的词即热点词作为热点话题。  最后,为了验证热点话题发现方法的有效性,论文采用微博的评论数和转发数计算出微博热度值从而找出热点微博,通过比较热点词所在微博是否为热点微博验证热点词是否为热点话题。结果表明论文提出的微博热点话题发现方法对某领域内热点话题发现具有较好的效果。
其他文献
Turbo码因其优越性能而被应用于OFDM系统中。Turbo码的译码算法及交织器的优化设计是提高Turbo码纠错性能的重要方法。通过分析BPSK,QPSK,16QAM调制下OFDM系统的抗噪及抗多径
随着计算机科学技术的发展,嵌入式系统的应用日益广泛。对于一些嵌入式设备终端,一个轻型的、快速的图形系统是不可缺少的。因此,我们有必要去研究设计嵌入式图形系统,也即图
本文对断层约束地质等值线系统的设计与实现进行了研究。文章利用等值点在同一三角形中成对出现这一特征,进行快速排序生成等值线的算法。在等值线的追踪过程中,涉及到等值点的
本文以河北西柏坡发电有限责任公司物资管理信息系统开发为对象,从实际工作出发,在分析目前西电公司物资管理系统中存在的问题的基础上,结合管理信息系统开发的基本原理和方
软件测试是保证软件可靠性的重要手段,在软件开发周期中起着非常重要的作用。而测试数据的生成是实现软件测试自动化的关键,这一技术的实现可以很大程度的减少用于软件开发的时
计算技术和网络技术的飞速发展,极大地促进了基于网络环境的科学应用研究。许多应用领域对计算能力的要求越来越高,单台计算机已很难满足计算需求。由多处理机构建的高性能计
住宅小区进出汽车牌照自动识别系统是实现住宅小区安全保卫系统智能化的重要环节,它是以数字图像处理、模式识别、计算机视觉等技术为基础的智能识别系统,利用每辆汽车都有唯一
从AC97到最近的HD(Higll Definition,高保真)音频技术,Intel实现了PC板载集成声卡规范的一次质的提升,在HD音频技术上集成和实现各种音频算法(包括最新杜比环绕技术)将使用户对
图形用户界面GUI(Graphical User Interface),作为人机交互技术的重要内容,提供了丰富的图形图像信息、直观的表达方式与用户交互。使用GUI系统作为人机界面的软件系统简洁、
现代社会学习、工作与生活的各方面越来越依赖于通信网络,特别是通信网络的可靠运行。因此,网络故障的检测、定位与恢复问题显得更加紧迫和突出。尤其是现有网络地址面临枯竭,IP