论文部分内容阅读
互联网的快速发展,使得社会信息化过程不断加快,人与人之间的信息交流与反馈更加直接、便捷与自由,同时也为虚假、不良信息的快速传播提供了捷径。对网络舆情信息进行实时、有效的监测,不仅有助于及时调整、改进战略决策,也有助于杜绝不良信息的滋生所带来的破坏性影响。本文在调研了国内外相关网络舆情监测技术的基础上,对关键的舆情热点检测技术及舆情情感分析技术进行了研究,提出了基于主题的在线网络舆情监测方法。该方法首先利用域名规则及网页链接规则的限制,实现了基于主题的网络爬虫。然后利用新闻报道的时间特性,实现了改进的在线文本增量聚类,进行实时新闻舆情话题捕捉。最后通过对基础情感词典的扩充,结合不同词特征的情感修饰作用,实现了对于热点舆情的情感分析。通过对真实新闻门户网站信息的抓取、处理与分析,该方法能够捕获主题相关的实时新闻舆情热点,并获取公众对于舆情热点的总体情感态度倾向及分布。本文方法具有以下优点:第一,实现了基于特定主题的新闻网页抓取,减少了主题无关数据的过多干扰。第二,基于时间特性提出了改进的在线增量聚类算法用于话题捕捉,克服了传统增量聚类算法的输入顺序敏感问题,并实现话题簇集合的周期更新。第三,结合同义词林和点互信息方法进行情感词扩充,实现基于词典的情感分析,充分利用了词特征的修饰作用,并避免了词特征的相对位置关系对于情感极性判别的干扰。实时新闻舆情信息的热点捕捉和态度倾向分析表明了本文方法的可行性和有效性,基于已分类语料的对比实验,也证明了本文方法在性能上的优越性。