论文部分内容阅读
随着互联网的迅速发展,我国的互联网现已成为当今最大的最多样化的传播媒介以及舆论平台。而在这个过程当中,农业民情及其舆论的集合产生了农业舆情。在我国,农业舆情即为“三农”舆情问题,在十九大中习近平强调,“三农”问题是关系国计民生的根本性问题,必须始终把解决好“三农”问题作为全党工作重中之重。社交网络当今已经是舆情突发的集中地带,面对多种多样的突发状况,如果缺乏对于社交网络的监测,就很容易让相关部门处于被动状态。所以针对社交网络的分析可以很好的弥补其不足,防止负面舆论的过度发酵而导致经济损失和相关部门的被动处境,对提高针对农业网络舆情监测的能力有重要的意义。因此对于农业舆情的监测与分析成为了公共领域的一个研究问题。在农业领域数据获取方面,现有的舆情监测系统大多针对农业门户网站或论坛农业板块作为研究重点,对社交网络的研究工作较少;在农业舆情发现方面,对于社交网络领域的舆情热点研究只是针对人工选取的问题做验证,并没有应用在社交网络环境对于社交网络的舆情热点研究较少;在舆情判断方面,目前的研究数据主要来源于人工选择,并不能满足如今网络环境多变的需求。针对舆情的突发性和现有农业舆情研究的局限性,使用网络爬虫技术对新浪微博和今日头条进行信息采集,以便及时获得社交媒体信息。针对网络舆情的难控制特点采用文本处理和分析技术对其进行处理,对网络文本进行文本分类,然后利用聚类标引不同农业热点主题,利用情感词典方法进行情感分析,方便对农业舆情做出对应的处理。最后对农业舆情监测与分析系统进行设计与实现。本文主要进行了以下几个研究内容:(1)针对社交网络文本,设计了基于贝叶斯的社交文本分类方法和基于kmeans的农业舆情主题标引。构建爬虫器并采集社交文本,分析文本信息利用贝叶斯算法构建出社交文本分类器并进行优化和验证,通过实验得到准确率达到96%其最后进行主题标引来发现社交文本中的农业热点。(2)设计了基于情感词典的农业舆情分析方法,利用波森情感词典构建了农业领域的情感词典、程度副词词典和否定词词典,并利用情感词典方法进行情感计算,经过验证其召回率、正确率、f1值至少达到85.5%,宏平均至少达到83%,表明本文采用的情感分类方法具有很好的效果;利用无监督学习达成了自动词典更新,满足情感词典对于时效性的需求。(3)设计并实现农业舆情监测与分析系统的原型系统。设计并实现了系统的采集模块,处理模块和分析模块。系统通过可爬取的社交媒体信息进行舆情处理与分析,将舆情结果反馈。系统采集的数据同时也会经过无监督学习扩充系统的词典。本文通过针对社交媒体进行农业舆情的处理和分析,设计并实现的农业舆情监测与分析原型系统,扩展了农业舆情研究的范围,对农业舆情的引导与控制有一定的应用价值。