论文部分内容阅读
我国是一个资源极度紧缺的国家,粮食供求关系长期偏紧,减少粮食产后损失潜力巨大,具有重要的战略意义。随着粮食物联网等技术的发展,粮食产后损失数据呈现增长迅速、来源繁多、结构复杂、获取和管理困难等诸多问题。尤其是来源繁多、结构复杂的问题直接制约着粮食损失信息高效检索与关联分析。因此,生成粮食产后损失变量之间的关系模型、构建粮食产后损失浪费数据体系、建立粮食产后损失分类模型对节粮减损有着至关重要的支撑作用。针对上述问题,本文通过构建知识图谱,并基于图谱中的实体属性信息进行粮食产后损失数据建模分析研究,具体工作如下:第一,本文基于scrapy框架爬取统计局、粮食局等网站的相关数据,对这些数据进行清洗、标注,进而整合形成语料库,并对其数据进行分词及词性标注。同时结合基于启发式规则和k最近邻算法对数据进行筛选和分类。其中,分类划分了14个实体类别,如粮食产后损失、植物学名词等。实体抽取实验结果表明,k最近邻算法加权后的分类准确度率比加权前的准确率高5.3%,验证了本方法在实体识别方面的有效性。第二,针对实体间的关系提取问题,将其任务抽象为分类问题。本文通过句法分析生成语句的句法分析树,获得词法信息和句法信息。接着通过语句的特定结构获得语义信息,并结合CNN算法模型和PCNN算法模型对实体关系进行分类。其中,分类主要分为7种实体间关系,如性质、上级分类等。最后结合实体和实体间的关系进行构建粮食产后损失知识图谱,并将其可视化。实验结果表明,PCNN模型的分类准确率比CNN模型高7.6%。说明PCNN模型对于实体关系抽取的性能效果好于CNN模型,对于句子的分段操作,可以更好地表示文本特征。第三,在粮食产后损失知识图谱的基础上获取相关的损失因素,如收获时间、虫害程度等,基于损失因素获取相关损失数据。并结合k最近邻、逻辑回归、决策树、XGBoost等算法,提出了一种针对粮食产后损失的多模型融合分类方法。该方法主要将粮食损失程度定性分为“极少”、“一般”、“严重”和“极其严重”四类。实验结果表明,本文提出的多模型融合分类方法在粮食产后损失分类方面的结果较为理想,召回率、准确率和F1值分别为94.0%、94.0%、93.2%,三种评价指标均优于传统的分类方法。另外,本文还设计与实现了一个粮食产后损失知识图谱系统。该系统可实现实体识别,关系查询,粮食知识概览。