论文部分内容阅读
随着互联网的普及与飞速发展,网络舆情已经逐渐成为对社会舆论具有极其重要影响的力量,并且在很大程度上引导着网民对于某些舆论事件的认知。由于网络舆情信息传播速度快与信息量大的特性,如何快速发现并分析网络舆情信息,已经成为当下研究的热点。贸易战作为焦点问题之一引起了广大民众的热切关心,在网络上迅速形成为一股庞大的网络舆情。而基于考虑政策因素的贸易战,更是民众关心的方向。相比于其他的网络舆情信息,考虑政策因素的贸易战体现的更多的是政府之间政策的较量,与群众的利益息息相关,是国家综合实力的体现。本文利用LDA主题模型来发现并分析基于考虑政策因素的贸易战舆情信息。分析了发生在贸易战中的一些主要事件的变化趋势以及政策因素的影响结果,包括“关税事件”、“中兴事件”、“和解事件”等。在此基础上,对提取的特征词及其权重进行了隐含主题分析,具体的工作如下:(1)基于考虑政策因素的贸易战舆情信息的文本数据的采集:本文采用基于主题的网络爬虫技术,设置贸易战、黄金、股市、进出口、经济等主题集来爬取微博上的相关文本数据。(2)文本预处理:LDA主题模型只能处理结构化的文本数据,所以,对爬取的自然语言进行了相关处理。首先利用每个字之间的组合概率来统计,对文本进行分词,然后利用TF-IDF模型进行了数据结构化处理,它很好地权衡了特征词在单个文档和所有文档集之间的权重。(3)利用LDA主题模型找出我们所需要的特征词,得到了表示隐含主题的特征词以及它在文档中的权重。(4)对实验结果进行了详细的分析介绍。基于以上工作,本文得出的结论为:从宏观方面分析了关于企业和政府的贸易战舆情信息。分析了它们之间的异同,“中兴事件”作为企业相关的贸易战舆情信息与“关税事件”、“和解事件”作为政府相关的贸易战舆情信息都服从舆情信息的发展周期,并且政策的出台会影响峰值的出现;与政府相关的贸易战舆情信息会出现多个峰值,且第二个峰值会出现政策的叠加效应,并且周期较长。从微观方面分析了基于考虑政策因素的贸易战舆情的隐含主题,本文得到了六个隐含主题:政府、国内态度、黄金、进出口关税、股市以及经济,政府以及国内态度为民众与政府态度方向的隐含主题,黄金、进出口关税、股市以及经济为经济方面的隐含主题。并且以得到的特征词以及权重对隐含主题进行了详细的分析。最后利用所得结论从微博发展的周期给与了引导时间上的建议;基于隐含主题给与了内容上面的相关建议。