面向畜牧业的知识图谱构建技术研究

来源 :新疆农业大学 | 被引量 : 0次 | 上传用户:lu_bo_123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
畜牧业是我国农村经济的支柱产业,也是农业结构调整的纽带产业。随着信息化时代的发展,畜牧行业数据产生速度明显加快,充分利用海量数据中蕴含的畜牧学知识,能为我国畜牧行业信息智能化提供帮助。畜牧业领域知识存在专业性强、共享困难等问题。因此,畜牧知识的高质量提取与整合成为了研究重点。知识图谱能使用统一的结构表达畜牧业领域中的非结构化信息,形成网状知识结构,降低畜牧业知识的应用门槛。畜牧业知识图谱的构建能为后续诸如智能问诊、智能问答、决策系统等应用场景提供知识库支撑。根据领域和用途的不同,知识图谱可以分为通用知识图谱和领域知识图谱。其中,领域知识图谱更注重深度,由于其专业知识储备要求严格,存在过度依赖专家、构建成本较高的问题,因此自动构建知识图谱是当下领域知识图谱构建的主流方式。自动构建技术中的知识抽取是构建畜牧业知识图谱的关键。本研究作为畜牧业知识图谱构建的一个子任务,负责搭建好整体框架,通过数据采集、知识抽取、知识建模、知识存储四个步骤构建畜牧业知识图谱,涉及的知识包括畜牧品种、兽病、兽药,实现了畜牧业领域知识图谱的自动构建,同时针对构建过程中的命名实体识别任务展开方法研究。主要研究成果如下:(1)多源数据的收集。以《国家畜禽遗传资源品种名录》中的33个物种大类为主体,从畜禽遗传资源普查信息系统、国家兽药基础数据库、兽医学专著等数据源中获取半结构化、非结构化数据,收集内容涉及畜牧品种、兽病、兽药,形成畜牧业数据集。(2)对命名实体识别方法展开研究,提出了基于匹配词权重优化的中文命名实体识别方法。该方法充分利用了词典匹配特征,首先利用预训练模型和分词工具获得每个字符的向量表示和词性标注;然后在词典中匹配潜在词组,根据匹配词词频和文档计数的优化权重对词组加权,结合字符向量得到字符的多特征融合表示;最后使用双向长短期记忆网络进行训练,使用条件随机场完成标签推理得到实体。实验结果表明,该方法在公共数据集和自建中文兽病实体数据集上优于对比模型。(3)使用自顶向下的方法构建畜牧业知识图谱。使用本体构建七步法和Protégé本体构建工具定义畜牧业知识概念体系结构,构建畜牧业领域本体。利用提出的实体识别方法抽取兽病、临床症状等实体8827个,使用基于规则的方法抽取畜牧品种、动物分类等实体3102个、属性三元组17760个、关系三元组10110个。使用Neo4j图数据库完成畜牧业知识图谱的存储和可视化展示,共存储实体6138个,三元组27870个。
其他文献
梅下毛瘿螨(Acalitus phloeocoptes Nalepa)是近年来新疆出现的重要害螨之一,其对杏产业健康发展造成严重威胁。本文对害螨进行鉴定、研究其发生、转移危害规律及种群消长动态与气象因子之间的关系,同时开展了化学药剂防治试验。主要结果如下:(1)经2 a观察研究表明:新疆轮台县梅下毛瘿螨1 a约发生12~15代,以成螨在瘿瘤芽苞内越冬。3月下旬越冬螨开始产卵危害,4月下旬和5月上旬
学位
本研究以新疆哈密地区三塘湖乡的大田哈密瓜为研究对象,使用无人机遥感技术获取大田哈密瓜作物生长期的冠层图像,同时利用手持式叶绿素仪测定冠层叶片的相对叶绿素含量(SPAD)。用光谱技术分别获取了哈密瓜植株冠层叶片及哈密瓜的光谱数据,采用烘干法及破坏性采样法测定叶片样本的含水率和哈密瓜内部的可溶性固形物。然后解析数据提取特征,综合使用线性和非线性模型进行定量预测建模,对比分析确定最优的预测模型。试验结果
学位
油葵是我国重要油料作物之一,具有较高的经济效益。随着油葵产业的发展,机械化收获水平不断提高,油葵分段式收获逐步被联合收获取代,国内现有油葵联合收获机清选装置存在油葵籽粒含杂率高、损失率高等问题,难以满足实际收获要求。本文以新疆地区种植油葵为研究对象,进行油葵脱出物物料特性的研究,研制适用于油葵联合收获机的清选装置,对其关键部件进行理论分析与试验验证。主要研究内容如下:(1)对油葵脱出物中各成分质量
学位
中国是目前世界上最大的棉花生产国,新疆是中国主要的国家级商品棉基地和最重要的优质棉产区,在棉花种植面积和棉花产量方面,新疆均位居全国第一。棉秆是棉花种植的主要副产物,是一种重要的生物质资源,若能实现回收利用,可创造巨大的经济价值。而目前中国关于棉秆起拔收获机械的研究处于起步阶段,现存的各种棉秆起拔收获机械存在诸多不足,国外现存的棉秆起拔收获机械主要针对其本土的大单行等间距的棉花种植模式,不适用于中
学位
报纸
推行棉农绿色生产方式是推进农业绿色发展的重要举措,在实施环节中面临了诸多困境。农业面源污染制约了棉花产业发展,地膜残留阻碍了土壤渗透的功能,直观影响到出苗、水分和养分的吸收等自然生长过程,最终造成棉花大幅减产。化肥农药过度施用加重了环境负担。农业是弱质型产业,是需要更多保护和支持的产业,新疆棉花高质量发展需要大力推行绿色生产方式,棉农选择绿色生产行为对棉花生产具有至关重要的作用。基于此,本研究对国
学位
针对新疆红枣收获方式多以落地捡拾为主,劳动强度大、收获成本较高的问题,通过对新疆红枣种植模式、种植规模、种植品种、相关农艺条件以及现有红枣收获机械应用情况进行调查研究,设计一种以气力输送原理为基础的落地红枣收获机械,主要对收获期落地红枣人工捡拾作业过程中捡拾、除杂两个主要环节进行机械代替作业,以此减少落地红枣收获作业中人工投入成本、降低劳动强度。主要研究工作下:(1)田间调研及枣树特征和红枣物料特
学位
<正>档案数字化的出现,对档案管理提出了新的要求和挑战。在档案数字化管理的基础上,ChatGPT作为一个自然语言生成模型,可以进一步提高档案管理的智能化水平。ChatGPT模型基本原理ChatGPT是由OpenAI推出的一种人工智能模型,它基于深度学习技术,可以模拟人类自然语言处理能力,理解自然语言,生成语言模型。ChatGPT的基础架构是Transformer,使用了多头自注意力机制,可以对文本
期刊
全氯代三苯基甲基自由基(PTM)和三(2,4,6-三氯苯基)甲基自由基(TTM)及其衍生物都属于室温发光且稳定的有机自由基。由于这些自由基拥有一个不成对电子,其最低激发态和基态的电子自旋态都是双线态,从最低激发态到基态的跃迁不存在自旋禁阻的问题。因此,当该类材料作为发光层时,OLED的理论内量子效率可以达到100%。稳定的有机发光自由基由于表现出独特的光物理性能,在新一代OLED、生物成像、分子开
学位
报纸