论文部分内容阅读
随着国内外主流社会媒体的快速发展,社会媒体已经逐渐取代传统媒体,成为人们发布、分享信息的主要平台。社会媒体给信息传播提供便利的同时也成为突发话题产生与传播的重要平台。与传统媒体不同,微博产生的突发话题可以不受时间、空间的限制,大大增加了面向微博突发话题的检测与挖掘分析的难度。当微博中涉及敏感信息的消息大规模爆发形成突发话题时,如果不能及时有效的检测以及挖掘分析突发话题,突发话题产生的负面舆情将不断发展,最终会成为影响广泛的社会事件,危及整个社会的安全。因此,面向微博突发话题的舆情挖掘分析研究已经得到学界和业界的重点关注。由于微博平台具有数据量大、信息碎片化严重、用户质量良莠不齐、信息传播快等特性,通过人工方式进行实时监测并不能实时有效地检测和挖掘微博突发话题。因此,面向微博等社会媒体舆情产生的主要媒介,如何面向微博消息流实现突发话题检测以及突发话题挖掘分析,从而有效阻止微博舆情危机爆发并正确引导微博舆论是社会媒体舆情领域亟待解决的重要问题。本文以最具代表性的国内外主流微博平台作为研究对象,旨在面向微博突发话题研究突发话题检测、突发话题挖掘分析方法与技术。主要针对如下关键问题展开研究:首先,为了有效地检测突发话题,提出了适用于微博舆情感知的关键词和微博用户预处理方法。在关键词预处理方面,为了避免发现伪突发关键词,提出一种基于社会信任和动力学模型的突发关键词检测方法,该方法基于物理学中动力学的基本概念,将微博中的关键词突发现象抽象为关键词动量的变化,然后采用MACD指标计算每个关键词的突发权值并根据突发阈值判断该词在特定的时间窗口是否为突发关键词。在大规模新浪微博数据集上的实验结果表明此方法能够检测到微博中的突发关键词并且最大程度的避免发现伪突发关键词。在微博用户预处理方面,针对微博平台中存在大量低质量的僵尸粉丝用户,为了有效过滤僵尸粉丝等营销用户对突发话题检测准确率的影响,提出了一个基于交互图模型的僵尸粉丝检测方法。此方法利用用户交互关系构建用户交互图模型,根据交互图模型提出了高鲁棒性的基于交互的僵尸粉丝发现特征,并利用不同的机器学习分类器对提出的特征的有效性进行实验验证。实验结果表明本文提出的基于交互特征的方法能够更加有效的发现僵尸粉丝。本文从突发关键词及僵尸粉丝用户两个角度提出的预处理方法为后续突发话题检测及挖掘分析奠定了基础。其次,针对面向实时微博消息流的突发话题检测问题,考虑涉及微博负面舆情产生的突发话题通常是社会事件类突发话题,本文提出了一种面向微博消息流的突发事件检测方法,此方法首先基于滑动时间窗口构建高效的二层哈希表存储及更新模型,然后提出一个自适应调整阈值的候选突发消息检测算法提取突发消息,并从候选的突发消息中去除僵尸粉丝用户发布的突发消息,最后融合突发关键词及事件特征对突发消息进行增量聚类从而形成突发事件。实验结果表明本方法能够更加准确地检测实时微博消息流中的突发事件。再次,针对微博突发话题关键用户挖掘问题,考虑促使突发话题形成的关键用户对舆情事件传播的影响,提出了一种面向突发话题的社区关键用户发现方法。此方法基于突发话题用户关系对突发话题建立突发话题用户图模型,并利用基于随机游走的社区发现方法挖掘突发话题用户关系图中的用户社区。针对大规模的用户社区,利用基于排序的方法检测关键用户。该方法与其他关键用户检测方法相比能够更加有效地挖掘出促使突发话题早期传播与扩散的关键用户。最后,针对突发话题的突发模式挖掘问题,本文提出了一种面向突发话题的突发模式挖掘方法。此方法基于突发话题用户关系对突发话题建立突发话题用户图模型,结合突发话题用户图模型提出了宏观及微观突发模式挖掘方法,在宏观突发模式挖掘方面,提出了面向突发话题特征的层次聚类挖掘方法,该方法能够挖掘出不同类别的突发话题,在微观突发模式挖掘方面,提出了面向不同类别突发话题的频繁子图挖掘方法,该方法能够挖掘出不同类别突发话题中的频繁信息流模式。