论文部分内容阅读
微博,是通过关注机制分享简短实时信息的广播式社交网络平台。其中包含了大量的突发话题,处理不当会造成谣言的滋生和蔓延,破坏网络秩序,影响社会治安,不利于社会的安定团结。本文分析了微博的信息特点、传播特点和国内外研究现状,提出一种微博突发话题检测方法。采用特征词探测窗口与微博文本筛选窗口相结合的双窗口策略提取具有潜在突发性的微博短文本,探测窗口计算特征词步调的复合权重并保留权重大于窗口中权重阈值的特征词,筛选窗口利用探测窗口保留的特征词对筛选窗口中的文本进行筛选。对特征的权重计算采用基于语义的 TF-IDF 函数,微博短文本用基于语义的向量空间模型来表示。在文本聚类方法上采用融入子话题的Single-Pass聚类算法,最终聚类得到突发话题。实验中计算聚类结果的召回率、准确率、F值以及同传统Single-Pass对比的误检率、错检率、误测开销值。实验结果表明,本文提出的方法可以有效检测微博中的突发话题。