论文部分内容阅读
随着Web2.0技术的发展,我们快速步入大数据时代。大数据时代,许多新闻事件在各种网络平台中被报道、评论、转发,形成事件大数据。面对事件大数据,人们虽然可以通过搜索引擎等工具获取关于事件的数据,但是这些碎片化的数据仅仅反映了事件的某个局部,人们从碎片化的数据中只能得到“盲人摸象”的效果,很难清楚掌握事件的发展变化过程。为此,对新闻话题内事件的识别以及事件之间演化关系的研究不断深入,逐渐发展成为一个热门的研究话题。本文主要围绕新闻报道中阶段性事件的发现以及事件之间的演化关系的识别开展了以下研究工作:(1)将社会热点事件在网络上引起的热议趋势变化引入到对事件内阶段性事件的识别中,事件热议趋势通过微博的微指数变化曲线间接表示,利用信号检测算法对指数变化曲线峰值的识别来划定事件发展过程中引发广泛关注的时间阶段,以该时间阶段作为时间窗口来组织新闻报道。(2)对时间窗口内的新闻报道进行局部聚类。基于向量空间模型使用内容、时间以及命名实体特征来表示新闻报道,通过Single-Pass、KNN聚类算法来进行阶段性事件的识别,并通过实验对聚类结果进行了对比分析。(3)研究了阶段性事件之间的演化关系。首先将阶段性事件之间的演化关系视为一个图结构,然后利用新闻报道的内容相似性、时间邻近关系以及报道分布关系来计算两个事件之间存在关系的可能性,并通过实验验证了基于阶段性事件之间的演化关系识别的效果。本文主要就近来引起广泛关注的社会热点事件“罗一笑事件”进行研究与分析,实验结果表明本文提出的基于微指数的阶段性事件识别方法针对社会热点事件取得了较好的效果,最后针对识别出的阶段性事件构建出了阶段性事件之间的演化关系图,梳理出了复杂事件的发展变化过程,证明了所提方法的可行性和有效性,从而为事件的识别与演化分析提供了一种新的思路。