论文部分内容阅读
网络舆情热点检测与跟踪技术主要利用计算机对海量的网络信息进行处理,提取热点主题并且对热点主题进行跟踪,它能把握整个舆情的动向,并且能够为下一步的舆情处置行动提供参考,是网络舆情分析的关键技术。本文主要针对BBS论坛,对网络舆情热点检测与跟踪技术进行了研究,提出了新的网络舆情热点检测与跟踪方法,并获得了满意的实验结果。 首先,本文对网络舆情热点检测与跟踪技术的现状和发展进行了简要的回顾。文中分别对网络舆情信息挖掘的相关技术和热点检测与跟踪算法作了分析。网络舆情信息挖掘主要包括网络舆情信息采集、网络舆情信息预处理、网络舆情信息分析等部分,并且介绍了现有的国内外网络舆情系统,对网络舆情热点检测与跟踪技术的研究主要包括话题检测与跟踪任务和话题检测与跟踪的关键技术等。 其次,本文提出了基于共词分析的网络舆情热点检测方法。传统的共词分析方法一般运用在某一专业的学科领域中,通过判断学科领域中主题间的关系,进而展现该学科的研究结构。本文提出将共词分析运用到网络舆情热点检测方法中,而BBS是网络舆情的主要载体之一,该方法将共词矩阵和聚类方法相结合,从而在BBS环境下发现舆情热点主题。实验证明本文提出的算法在BBS环境下的应用具有稳定性和高效性,并具有一定的可信度。 再次,本文在总结了现有的主题关注度提取方法的基础上,分析了它的优缺点,并提出了一种基于关注度的热度提取方法,即综合考虑论坛帖子权重值和主题的媒体关注度对主题热度的影响。紧接着主要根据主题距离构建出主题进化图,将相对熵的概念引入到主题距离提取的方法上,并介绍了一些相对熵的应用。通过相对熵的阈值判断,从而发现各个时间戳中主题的延续性。 最后,分别使用大规模数据语料和真实论坛语料对本文提出的基于共词分析的网络舆情热点检测算法和基于热度分析的网络舆情热点跟踪算法进行了实验,并对测试结果进行了分析。实验结果表明,本文的算法对处理网络舆情热点检测与跟踪问题具有一定的可用性。 本文最后对论文所做的工作进行了总结与评述,并提炼了网络舆情热点检测与跟踪技术中值得继续研究的若干问题,为以后的研究指明了方向。