论文部分内容阅读
论坛已经成为网民发表观点和交流思想的平台。由于论坛具有的匿名性、开放性、互动性等特点,使得网民可以自由的发表意见,探讨他们所感兴趣的话题。同时,也正是因为论坛的这种特性,给舆论的管理和监督带来了新的挑战。话题在论坛上传播的迅速往往使得话题变得不可控制,一个话题一旦引起网民的兴趣,便会在网络上迅速传播、扩散,最终可能导致舆论的形成。目前,论坛作为舆论的主要发源地已经引起了研究者的注意,越来越多的研究者已经开始了针对论坛的舆情监管技术研究。文本特征表示方法对于研究话题发现、跟踪来说至关重要。本文提出了基于有意义串的论坛文本的特征提取方法,用于表示帖子文本内容。本文在提取重复串的基础上,对串进行分析,使重复串成为有意义串。相对于词来说,有意义串具有一定的语义信息,独立性和完整性,更能表达文本的内容。论坛话题发现与跟踪是在文本特征提取的基础上对帖子进行的聚类和分类过程。本文提出了基于有意义串的话题发现与跟踪方法,即用有意义串表示帖子文本,采用single-pass增量聚类算法用于话题发现,采用1-NN算法实现话题跟踪,通过话题发现和跟踪,我们可以更有效地组织话题,及时掌握热点话题,并跟踪已知话题的后续报道。实验证明,基于有意义串的话题发现与跟踪方法取得了较理想的效果。为了掌握话题的发展动态和未来走向,本文从两个角度研究论坛上的话题传播:第一,研究话题在不同论坛之间的传播,主要通过构建传播图的方式直观展现话题传播的途径,并识别传播的核心论坛;第二,研究论坛内部的话题传播及预测。本文介绍了影响力传播模型和社会关系网络,并将其应用于论坛内部的话题传播研究和预测。经实验验证,取得了较理想的效果。