论文部分内容阅读
随着国家对农业的大力扶持以及互联网技术的迅猛发展,农业相关信息不断地膨胀扩大,农业信息化发展迅速,在线农业信息已经海量化。如何从海量化的农业信息中实现农业信息的快速搜索和准确定位已经变得越来越困难。在这样的背景下,选择优化的农业信息分类方法,辅助实现农业信息的快速检索、准确定位是至关重要的。本文对基于决策树、贝叶斯和深度学习的农业信息分类方法进行了研究。重点探讨了深度学习中的卷积神经网络的网络结构和网络训练过程,实现了对农业信息的自动分类,提高了文本分类的精度和效率,来增加信息的利用价值。主要工作如下:(1)数据获取及预处理部分。利用爬虫程序从中国农业信息网上获得相关栏目下的文档作为农业信息数据集,然后利用Jieba分词和Pynlpir两种分词方法对数据集进行分词处理,并利用停顿词表去除分词文件中的符号、数字等一些不能代表文本特征的无用词汇,接着运用常用的特征选择评价函数进行特征选择,在此基础上证明了利用卷积神经网络自动提取农业信息特征的可行性。(2)农业信息的两种向量化表示方法。一种是中文分词、去停顿词后抽取文本特征词然后表示成文本向量方法;一种是中文分词、去停顿词后直接表示成词向量方法;利用词向量的方法避免了传统向量表示维数过高的问题,利用深度学习的方法可以自动提取农业信息的特征词。(3)基于预处理生成的向量文件,分别利用决策树、贝叶斯和深度学习的卷积神经网络模型实现了农业信息分类,并对运行结果进行了理论分析,针对二分类与十分类的运行结果差异提出了思考,接着运用聚类的方法验证了数据集类别文本的分布情况并利用饼状图直观显示,从而验证二分类和十分类运行结果的差异是因为数据集各类别文档数目不平衡造成的。通过实验验证了卷积神经网络应用于农业信息分类问题上的可行性,并与其他现有的分类器进行比较,分析了卷积神经网络在农业信息分类上的优越性。(4)针对农业信息分类的卷积神经网络结构提出了优化思考,对实验结果进行了理论对比分析。结果表明,针对农业信息分类的网络结构中各节点均采用Sigmoid激励函数时网络分类性能下降明显,而各节点均采用Relu激励函数时网络分类性能显著提高。在调整卷积核个数实验中,增多网络模型中卷积核的个数到原来的两倍,网络最终达到了99.40%的分类精确率。