论文部分内容阅读
随着网络技术的飞速发展,网络媒体已经成为人们获取信息的重要来源,网络已经成为舆情产生和传播的主要场所。为了加强互联网管理和监控,网络舆情信息的汇集整理与分析成为目前各级政府部门急需解决的现实问题。舆情监控分析系统可以实现对互联网舆情海量信息自动实时的监测与分析,有效地解决传统人工方式对舆情监测的实施难题。在网络舆情智能分析功能中,热点舆情的自动发现和分析技术的研究与应用是其中重要的一环,可以帮助用户及时快捷地了解和掌握网络热点,及时跟踪社情民意。本文对舆情热点的自动发现及分析进行了重点研究,主要研究内容包括以下方面:研究了热点舆情的自动发现技术。首先结合新闻报道语料的特点,提出了一个话题发现算法。该算法基于Single-pass聚类算法,通过引入如下策略来提高话题发现的效果:在特征项权值计算方面,由于报道中的人名、地名、机构名以及出现在标题中的词对于话题的区分比一般的词有更大的贡献,因此在计算权值时赋予它们更大的权值;在报道与话题的相似度计算方面,由于报道所发布的时间有助于区分该报道是否属于某个话题,因此使用了一种混合的相似度计算方法,将基于传统的夹角余弦计算相似度的方式和基于时间相似度的方式综合考虑;在话题的逻辑结构上,由于一个话题可能包含多个话题中心,因此在判断一篇报道的归属时将报道与这些话题中心进行比较。实验表明,这些策略改进了Single-pass算法的聚类效果。然后,本文通过分析话题热度的特征,从媒体关注度的角度对话题的热度进行评价,提出了一个计算话题热度的公式,实验表明该公式是有效的。研究了热点舆情的意见挖掘技术。针对网民对热点所发表的评论,提出了一种挖掘这些评论的方法。首先,以分词工具为基础,将评论中经常出现的非正式人名修正为正确的人物对象,然后通过Apriori算法挖掘评论中出现的频繁模式来获知网民对某话题的主要意见和立场,并将这些频繁模式通过图形化的方式展现给用户。最后本文设计了一个热点舆情发现与分析的应用系统。该系统实现了网页采集、网页预处理、热点舆情发现与分析、舆情搜索的功能,具有一定的实际意义。