基于词汇增强的苹果病虫害命名实体识别研究

来源 :西北农林科技大学 | 被引量 : 0次 | 上传用户:cdhanks1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在我国苹果种植业的悠久历史中,病虫害问题一直以来都被视作限制苹果产业发展的最常见因素。当苹果种植过程中遭遇病虫害侵袭时,多数苹果种植从业人员由于专业知识的匮乏,无法对病虫害做到对症下药,可能会贻误防治病虫害的最佳时机,使情况更加恶化。因此,从苹果病虫害领域专业文献资料之中抽取有效的防治信息帮助苹果种植从业人员来更好的解决病虫害问题具有重要的现实意义。其中,命名实体识别作为信息抽取任务中最为基础的关键步骤就显得尤为重要。目前,苹果病虫害领域命名实体识别研究还处于初期发展阶段,缺乏较为成熟的语料数据集。并且苹果病虫害领域语料的专业性较强,包含较多领域术语和专有名词,具有命名实体类别繁多、相同实体存在多种别称或简称、稀有实体难以识别等特点。针对上述问题,本文面向苹果病虫害领域文本开展相关研究,具体研究内容如下:(1)针对缺少成熟的苹果病虫害领域命名实体识别数据集的现状,本文整理收集苹果病虫害防治领域专业文献,并对其进行去重、数据格式转换等预处理,构建了中文苹果病虫害命名实体识别语料数据集ApdCNER(Apple pests and diseases corpus for Chinese Named Entity Recognition),填补了当前该领域研究的空白。该数据集共包含21个实体类别,5574条样本和11876个实体,为本研究及后续研究奠定了数据基础。(2)根据苹果病虫害领域语料所具有的特点,本文提出了面向该领域语料的命名实体识别模型APD-CA。该模型以基于字符的BiLSTM-CRF模型作为基线模型,针对数据中的稀有实体以及别称简称识别效果不佳的问题,引入了词汇信息,以提供更多的语义信息和实体边界信息,并设计了一种基于词汇重要性的词汇融合方法使模型可以同时并行处理多个句子;针对部分实体类型数据较少的问题,通过引入相似词汇对句子样本的语义进行补充,弥补数据不足的问题。(3)本文从多个角度设计对比实验对所提出的苹果病虫害命名实体识别模型APDCA进行研究分析。实验结果表明,APD-CA模型在ApdCNER数据集上的精确率、召回率、F1值分别为92.29%、91.99%、92.14%,相较于基线模型BiLSTM-CRF分别提升了2.95%、2.13%和2.54%,同其他4种SOTA(State of the art)模型相比也均有不同程度上的提高,证明了该模型在苹果病虫害命名实体识别任务上具有性能优势。同时,其他的实验结果也进一步证明了该模型具有效率优势以及一定的泛化性。本文的研究有效提升了苹果病虫害领域命名实体识别任务的效果,为苹果病虫害领域的知识图谱构建,智能问答系统,智能语义搜索等下游研究工作提供底层技术支撑,帮助苹果种植从业人员更加高效便捷的找到对应病虫害的防治方法。
其他文献
茶产业是经济与民生的重要产业。科学的病虫害防治不但有助于茶园增产增效,同时能够有效从源头保障茶叶质量安全,对于茶农也具有节支降本和增收的作用。病虫害防治作为一项劳动力需求大、专业知识要求高、影响作用大的农事活动,逐步成为茶园农业管理中备受关注的一项难题。而推广茶园专业化病虫害统防统治目前被认为是一项具有良好效果及前景的茶园病虫害解决方案。种植户作为茶叶病虫害管理中的主体,也是茶园病虫害专业化统防统
学位
几何特征线可以清晰地表达三维模型的轮廓信息。几何特征线的提取在点表面采样处理中具有重要的理论意义和实用价值。点云模型中,各点均来自目标表面的离散采样,分布散乱,缺乏拓扑连接、具有典型的无序性和无组织性。同时,因三维形状复杂以及数据量大,使得缺乏有效结构支持成为点云分析与处理所面临的一大瓶颈。针对这一现状,本文研究点云模型几何特征结构化问题,提出了一种基于几何特征检测算子的特征线构造方法。该方法首先
学位
个体身份识别在智能安防、生物特征识别、罪犯追踪等领域具有重要的研究意义,同时也为家畜身份识别分析如基于图像以及视频的羊只个体身份识别奠定了基础。在具有高相似度的羊只身份识别的研究过程中,由于羊只易聚群造成的图像采集困难、羊只相似性较高等问题,本文提出一种基于深度学习的羊只身份识别算法,通过集成多种优化算法模块,实现了高相似羊只身份的精准识别,以期为羊只的身份管理提供有效的指导。本文主要研究内容如下
学位
随着国家公园理念在全球范围内的不断发展,现已成为国际公认的行之有效的保护地发展模式。近年来,随着中国对自然区域关注度的提升,逐步开展了以国家公园为主体的自然保护地体系建设。从2013年11月党的十八届三中全会首次提出建立国家公园体制起,至2021年10月我国正式设立第一批国家公园,至此我国的国家公园建设迈出了关键性的一步,进入了新的发展阶段。为建立健全符合我国特色的国家公园体制,在新的阶段,无论是
学位
党的十八大以来,我国经济发展进入了新常态,由高速增长转为高质量发展阶段,经济发展动力也逐渐转换成科技创新驱动。在支持科技发展改革和创新型国家建设方面,公共财政具有义不容辞的责任。多年来,特别是“十三五”期间,财政部门始终把支持科技创新摆在公共财政的重要位置。在创新发展战略下,各级政府积极安排财政科技专项资金鼓励支持高校组织、企业等主体的科研创新,并发挥了政策引领的作用,但结合我国科技创新仍处于发展
学位
浮雕能在有限空间内呈现丰富的细节信息,广泛应用于各类装饰。为了能够更好地满足人们对装饰浮雕个性化、多样化的需求,本文主要研究单幅装饰图像的浮雕建模,提出一种新的基于二维图像的浮雕建模框架,同时使得生成的装饰浮雕模型能够很好地保留几何细节信息,实现装饰浮雕的高质量建模。该框架基于法向预测和法向迁移,以单幅装饰图像为输入,经过法向预测生成法矢图,并基于纹理迁移思想实现法矢纹理的迁移,完成法向编辑,最后
学位
《孟子》散文以论辩说理为主,反映了先秦文学独特的论辩艺术。在统编教材教学实践中,可从分析文章思路、避免混淆概念两个方面引导学生体会《孟子》散文的逻辑性;从揣摩虚词、品读句式两个方面体验其感染力;从以文解文还原本真、读写结合辩证思考两个方面体悟其思想性,从而探求《孟子》散文适切的教学策略,以促进学生文学审美能力的提升。
期刊
反刍动物是特殊的种群,常见的有牛和羊等草食性动物,它们拥有能够消化纤维性植物资源的器官—瘤胃。瘤胃内存在一个十分复杂的微生物系统,该系统组成成分主要有原生动物(以纤毛虫为主)、厌氧真菌、细菌以及少量的噬菌体,进入瘤胃内的饲料通过这些微生物进行发酵,从而让有机体利用营养物质维持宿主的各项生理活动。瘤胃原虫中纤毛虫是最主要的,纤毛虫个体最大、数量最多。瘤胃纤毛虫的种类和种群数量的变化是反应瘤胃内环境状
学位
目的:观察通督调神针法联合调整食物形态摄食训练治疗中风后吞咽功能障碍的疗效。方法:106例按照随机数字表法分为对照组和研究组各53例。两组均给予调整食物形态摄食训练治疗,研究组加用通督调神针法治疗。结果:研究组总有效率高于对照组(P<0.05),研究组SSA评分低于对照组(P<0.05),研究组FOIS评分、MNA评分、SS-QOL评分高于对照组(P<0.05),研究组社会功能、心理、症状等PRO
期刊
作为地域文化的重要物质载体,人文景观空间会由于外来文化入侵、人工过度干扰等原因丢失原本的结构和形态,如何可持续地保护人文景观空间成为世界范围内文化遗产保护领域的难题。作为世界文化遗产版图中不可忽略的一部分,武夷山国家公园的人文景观空间具有重要的研究价值。然而,武夷山国家公园同样面临人文景观空间可持续保护与发展的难题。本文的研究目的和研究意义为在传承原有人文思想的基础上,找到人文景观空间发展的内部规
学位