微博热点话题发现方法的研究和实现

来源 :北京交通大学 | 被引量 : 6次 | 上传用户:bqayxgflx1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,微博平台因其广泛的参与性和良好的用户体验迅速积累了大量用户。在社会热点话题的传播上,微博平台往往比其他媒体具有更高的时效性和更深层次的用户参与度。一个社会热点话题很多时候都是从微博平台上首先发布并迅速引起大量关注的。事实上,社会热点信息,对新闻业、金融业、甚至国家网络舆论安全都至关重要。因此对于微博平台热点话题的发现研究具有重要的现实意义。如何快速有效地提取微博热点话题是本文的主要研究内容。论文从现有的研究入手,梳理了前人对微博热点话题提取和微博主题发现的研究成果,并系统地介绍了微博话题发现的相关技术和理论基础。论文通过分析聚类算法和主题模型算法的优缺点,提出了以LDA主题模型算法为基础的微博热点话题提取方案,具体成果如下:(1)针对LDA主题模型在微博短文本领域效果欠佳问题,本文提出了一种利用微博评论信息和百度百科词条的微博短文本扩展方案。该方案充分考虑微博文本本身特性以及扩展信息的特点,设计了以词共现模型为基础的微博评论信息筛选机制和以重合词概率为基础的百度百科词条筛选机制。通过理论分析和实验验证,将经本文所提方案扩充的微博短文本和未经扩充的微博短文本进行对比,结果表明,本方案使得微博文本平均长度增加了近50%,在各个主题数目下,经过扩展的微博文本的LDA主题模型困惑度均有所降低。(2)本文以LDA主题模型的输出为基础,提出了一种基于时序分割和主题结果聚类的微博热点话题提取方案。该方案根据微博信息的生命周期理论,将扩展后的微博文本按照其发布的时间进行切分,形成单位语料,对每个单位语料使用Gibbs Sampling算法求解其LDA主题模型,使用凝聚层次聚类算法将主题聚类,根据聚类结果发现话题,并计算话题热度。同时根据一个话题在不同时间段内的热度变化形成话题热度时间序列,通过变异系数指标衡量一个话题是否为突发性话题,通过近期热度率指标衡量一个话题是否在近期时间内被热烈讨论。实验结果显示,该方法能有效地提取微博平台上的热点话题,具有一定的实用价值。论文最后总结了整个研究工作,并明确了论文未来的研究方向。
其他文献
正是由于计算机技术的快速发展,计算能力得到很大程度的提高,才使得利用计算机实现人类的视觉功能成为目前计算机领域中最热门的研究课题之一。行人检测与跟踪技术作为计算机
随着通信和信息技术的飞速发展,网络应用领域变得更加广泛,深刻影响着人们的日常工作和生活。由于网络的应用范围在不断扩大,网络用户的数量也在逐年增加,这使得网络状况逐渐
近年来,基于机器视觉的动物行为检测和识别已经成为了机器视觉研究领域的热点之一。本文在机器视觉应用技术基础上,通过构建星状骨架模型来提取出模型角度参数。利用角度的统计
步态识别是一种基于人体生物特征的新型识别方式,也是国内外的研究机构和学者目前重点研究的课题之一。它融合了计算机视觉、模式识别和图像序列等多种计算机与信号处理领域
信息技术的迅猛发展使人们生产与收集的数字化数据越来越复杂,除了数据的维度越来越高,表示形式也越来越多样化,呈现出多态性、多源性和多描述性的特点,这些数据通常被统一称
摘要:现如今,互联网在人们的日常生活中扮演者越来越重要的角色,人们的工作生活都需要互联网的支持。随着互联网技术的日益发展,美国出现了Twitter这样的信息平台,而国内也出
高速铁路,作为一种快速,安全和绿色的公共交通系统,近年来在我国得到了快速发展。在长达数小时的旅途中,如何为旅客提供高质量的通信服务已经成为研究热点之一。LTE-A系统具
近年来,随着移动智能终端的普及和各种实时多媒体业务的广泛应用,宽带无线网络中的通信量以指数速率增长,随之产生的是对更高覆盖质量、更高数据速率业务需求的增长。相对于
高铁具有输送能力大、速度快、节能等优点,对我国的交通、运输、环境以及经济起着十分重要的作用,然而高铁交通安全形势却不乐观,高铁的安全问题不断出现。走行部故障是危害
随着各种无线技术的不断发展和用户对随时接入网络的需求,移动互联网正朝着异构化的方向发展。移动终端对WLAN、CDMA、3G等多种接入方式的支持已经非常普遍。接入移动互联网