论文部分内容阅读
近年来,微博平台因其广泛的参与性和良好的用户体验迅速积累了大量用户。在社会热点话题的传播上,微博平台往往比其他媒体具有更高的时效性和更深层次的用户参与度。一个社会热点话题很多时候都是从微博平台上首先发布并迅速引起大量关注的。事实上,社会热点信息,对新闻业、金融业、甚至国家网络舆论安全都至关重要。因此对于微博平台热点话题的发现研究具有重要的现实意义。如何快速有效地提取微博热点话题是本文的主要研究内容。论文从现有的研究入手,梳理了前人对微博热点话题提取和微博主题发现的研究成果,并系统地介绍了微博话题发现的相关技术和理论基础。论文通过分析聚类算法和主题模型算法的优缺点,提出了以LDA主题模型算法为基础的微博热点话题提取方案,具体成果如下:(1)针对LDA主题模型在微博短文本领域效果欠佳问题,本文提出了一种利用微博评论信息和百度百科词条的微博短文本扩展方案。该方案充分考虑微博文本本身特性以及扩展信息的特点,设计了以词共现模型为基础的微博评论信息筛选机制和以重合词概率为基础的百度百科词条筛选机制。通过理论分析和实验验证,将经本文所提方案扩充的微博短文本和未经扩充的微博短文本进行对比,结果表明,本方案使得微博文本平均长度增加了近50%,在各个主题数目下,经过扩展的微博文本的LDA主题模型困惑度均有所降低。(2)本文以LDA主题模型的输出为基础,提出了一种基于时序分割和主题结果聚类的微博热点话题提取方案。该方案根据微博信息的生命周期理论,将扩展后的微博文本按照其发布的时间进行切分,形成单位语料,对每个单位语料使用Gibbs Sampling算法求解其LDA主题模型,使用凝聚层次聚类算法将主题聚类,根据聚类结果发现话题,并计算话题热度。同时根据一个话题在不同时间段内的热度变化形成话题热度时间序列,通过变异系数指标衡量一个话题是否为突发性话题,通过近期热度率指标衡量一个话题是否在近期时间内被热烈讨论。实验结果显示,该方法能有效地提取微博平台上的热点话题,具有一定的实用价值。论文最后总结了整个研究工作,并明确了论文未来的研究方向。