基于规则与深度学习的细粒度渔业标准信息抽取研究

来源 :大连海洋大学 | 被引量 : 0次 | 上传用户:Augustin413
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
渔业标准化是数字渔业发展的主要趋势,实现渔业标准化需要渔业标准信息服务系统做支撑,完善渔业标准服务系统需要从渔业标准文本中抽取其蕴含的知识。信息抽取技术能够对渔业标准文本中的知识进行抽取,目前的渔业标准信息抽取主要针对粗粒度实体进行抽取,而完善渔业标准服务系统需抽取完备的渔业标准实体,因此需对渔业标准细粒度实体进行抽取。因渔业标准细粒度实体主要存在于渔业标准表格中,且细粒度实体存在重叠关系等问题,故在表格抽取基础上完成重叠关系抽取,完善渔业标准信息抽取。针对上述问题,本文开展面向细粒度渔业标准信息抽取研究,具体研究工作如下。(1)结合规则与深度学习的渔业标准表格抽取方法。为解决渔业标准文本中表格结构多样、表头位置不固定导致抽取效果不佳的问题,提出一种结合规则匹配(Rule-Based-Matching,RBM)与AbTransformer(Absolute Transformer)的表格信息抽取方法。该方法对非规则类表格信息采用改进的Transformer进行抽取,通过在位置编码模块中引入行位置编码,与特征向量进行拼接以获取表格行列位置以解决行列不固定的问题,并将AbTransformer与规则法结合来提高模型的准确率和泛化能力。实验结果表明,本文RBM-AbTransformer方法F1值达到了95.77%,与AbTransformer模型相比F1值提高了5.27%,表明本文所提方法有效提升了渔业标准表格信息抽取的整体效果。(2)基于ERNIE的渔业标准重叠关系抽取方法。针对渔业标准文本中存在重叠关系导致抽取召回率低的现象,提出基于ERNIE的Text CNN-Bi LSTM-Attention模型。为得到重叠实体的隐藏语义信息,引入ERNIE,同时为获取输入特征的全面信息,结合Text CNN与Bi LSTM对长短距离特征进行提取,并在Bi LSTM后引入Attention机制来增加长距离特征权重,使实体在不同特征中关系表示不同,解决重叠关系问题。实验结果表明,所提方法F1值达到了94.33%,与BERT-Bi LSTM-Att(s)模型相比F1值提高了1.81%,表明本文方法能有效抽取渔业标准重叠关系,为构建渔业标准系统提供基础。
其他文献
中华民族的伟大复兴离不开教育强国政策的实施,加强高校教师队伍的建设是新时代高等教育事业发展中最为重要的一项基础性工作。随着我国教育事业改革不断推进,高等教育所需教师的数量也在不断扩大。作为高校教师队伍中的主力军,青年教师是教学科研的骨干,是高校未来发展的中坚力量,同时更是大学生成长成才的引路人。高校青年教师的理想信念、政治立场、价值取向直接关系到社会主义大学的办学方向和高校“为谁培养人、培养什么样
学位
党的二十大报告指出,“教育、科技、人才是全面建设社会主义现代化国家的基础性、战略性支撑”。同时党的二十大报告又对加快我国建设教育强国作出一系列重要部署,强调“推进教育数字化,建设全民终身学习的学习型社会,学习型大国”。随着现代科技的迅猛发展,以计算机和网络技术为核心的现代信息技术渗透到经济、政治、文化、教育等各个领域,深刻改变着各类学校的教育模式,信息技术的渗透也不可避免地对高校思想政治理论课(以
学位
水产养殖的健康和可持续发展对国家经济和民生至关重要。借助自然语言处理技术,辅助水生动物医疗实现智能化诊断,将推动整个水产养殖行业的数字化转型和升级,促进其健康发展。在这一背景下,情感分析作为子任务为鱼病诊断提供全新机会。通过将情感数据与鱼病的知识相结合,构建一个综合性的鱼病诊断系统,能够提高诊断的准确性和实时性。目前的鱼病诊断系统主要基于专家系统,在依赖专家先验知识的同时,忽略大量情感数据。为解决
学位
海珍品是指一些海洋中特有的珍贵高营养食材,例如海参、海胆、扇贝、鲍鱼和牡蛎等。这些食材以其独特的口感和丰富的营养价值,在国内外市场上广受欢迎。随着人们对海珍品的需求不断增加,使用自动化、智能化的捕捉方式已成为未来智慧牧场和智慧海洋的必然趋势。因此,研究适用于水下机器人等嵌入式设备的轻量化海珍品检测模型对于海洋牧场智能化建设具有重要意义。近年来,随着计算机视觉和深度学习技术的不断发展,利用机器学习方
学位
核反应堆压力容器是核电站中最重要的部件之一,其服役寿命对整个核电站的安全运转起着决定性的作用。核反应堆压力容器作为经典的Fe-Cu二元合金,在使用过程中会受到辐照损伤,这使得溶质原子析出形成沉淀从而加快了合金的老化过程。因此,需要对材料实现原子级别的微观模拟来了解材料内部的微观演变,通过计算机数值模拟技术则可以有效帮助材料研究人员深入研究这些物理化学现象。动力学蒙特卡洛方法是当下较为常用的科学计算
学位
氢能是最清洁的能源载体,是未来能源革命与产业发展的重要方向,是助力双碳目标实现的重要手段之一。本文通过对比碱性电解池制氢、质子交换膜电解水制氢、固体氧化物电解水制氢等主流电解水制氢方式,分析各制氢方式的特点,阐述了光伏直流耦合PEM电解水制氢的重要意义。分析了光伏直接耦合和间接耦合PEM电解水制氢的原理以及优缺点。针对目前光伏直流耦合PEM电解水制氢的研究现状,对光伏耦合PEM电解水制氢的未来发展
期刊
学位
智慧化养殖已成为我国鱼类养殖产业发展的核心动力,这种智能养殖模式将逐渐代替以往的传统养殖模式,使水产养殖业进入智慧时代。鱼类养殖密度是养殖过程中的关键因素,过小会影响鱼类产值和经济效益,过大会影响水体水质和鱼类生长性能。鱼类实例分割是实现精细化养殖的重要前提,可为鱼类体长、体质量以及生长状态评估提供依据。然而,现阶段养殖鱼类图像实例分割网络由于水下环境复杂、养殖密度不均匀,很难精准分割出图中不同尺
学位
劳动教育和思想政治教育作为中国特色社会主义教育制度的重要内容,是学校教育的中心任务,以立德树人作为根本目标和重要使命。思想政治教育在劳动教育过程中起到思想引领的作用,而劳动教育则能够具体实现思想政治教育的目标,推动学生思想政治教育与劳动获得感的互促提升。但随着社会的快速发展和科技的进步,特别是人工智能等新技术的崛起,劳动教育近年来在教育中受到的关注较少,尤其是在高校教育中劳动教育环节相对薄弱。这导
学位
在海洋生态环境中,海洋微藻是一种占据重要地位的光合自养型生物,能够进行光合作用,吸收二氧化碳。随着水体富营养化日益严重,水体中的某种藻类快速繁殖逐渐形成有害水华,破坏水体环境。因此,为了维持水体的生态健康,充分利用藻类资源,对藻类进行识别非常重要。在海洋微藻图像识别任务中,人工镜检识别劳动量大;传统的图像识别算法存在识别时间长、精度不高等问题;目前基于深度学习算法进行藻类识别广泛适用,虽然精度较高
学位