论文部分内容阅读
我国作为农业大国,农产品是我们赖以生存的必需品。近年来,舆论对于农产品质量安全问题的放大与炒作,极大地增加了农产品质量安全监管工作难度。如何快速地掌握舆论偏向,及时分辨舆情中的正负面因素对于农业监督管理部门来说极为重要。因此,舆情信息分类是农产品舆情信息分析和预测的首要任务。本文提出基于深度学习的农产品舆情信息的分类方法,分别从词向量、卷积神经网络和循环神经网络、特征融合和多模型融合三个方面进行了研究。基于词向量的改进研究。针对word2vec构建词向量过程中无监督,未加入文档类别信息的特点,本文将TF-IDF的单词权重值作为word2vec词向量矩阵的权重,改进后的词向量具有文本区分能力。针对word2vec以准确切割单词为前提的特点,本文提出从字粒度和词粒度同时生成特征向量,从而拓宽特征向量的维度,提高文本分类的准确度。基于卷积神经网络和循环神经网络的改进研究。针对TextCNN卷积神经网络卷积层的深度仅单层且最大池化会丢失词汇顺序的特点,本文通过循环卷积与半池化来增加网络的深度,改进后的TextCNN可获取长距离的文本依赖关系。针对TextCNN只在句子维度上进行一维卷积,缺少词嵌入维度上的卷积特点,本文使用二维卷积来卷积词向量矩阵,改进后的TextCNN可挖掘词向量维度上的局部特征和拓宽特征维度。针对LSTM不能并行地对局部特征进行提取的特点,本文将CNN和BiLSTM相结合,这既能获得局部特征又能获得文本序列的全局信息。经实验验证,改进后的模型均提高了舆情信息分类的性能。基于特征融合与多模型融合的舆情信息分类的研究。针对单一模型的特征对舆情信息提取不全面的特点,本文通过融合改进模型的浅层特征,增强模型对舆情信息的提取能力,从而获得更具备舆情信息分类能力的高层特征。针对单一模型对舆情信息分类任务效果不显著的特点,本文通过多种策略将改进模型与经典模型相融合。最后,本文对上述融合模型的分类效果进行了评估,选取了分类效果最优的融合模型应用于国家农产品追溯系统,对系统中“湘西柑橘滞销”的实例进行了舆情信息分类。实验结果表明,本文选取的融合模型能高精准地对农产品舆情信息进行分类,在农产品舆情信息分类领域具有一定的借鉴意义。