基于深度学习的工艺命名实体识别方法

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:beibei114
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
制造执行系统(Manufacturing Execution System,MES)是智能车间的重要功能,通过MES可以实现工艺信息的从设计过程到制造过程的传递。然而,输入MES的工艺信息是非结构化的文档,这给自动化的信息识别带来困难。因此工艺信息的自动识别是将MES中的非结构化数据转变为结构化数据的关键。基于深度学习的命名实体识别方法在结构化信息提取中表现出极大的潜力。但是,真实工业场景中工艺文档细粒度、小样本、多模态的特点,给工艺命名实体识别带来障碍。为此,本文针对细粒度任务和小样本数据展开研究,提出了基于深度学习的命名实体识别方法,并在工程案例中进行验证。首先,针对细粒度命名实体识别问题,提出了一种基于注意力机制的深度学习模型(BFB-attention)。该方法以BERT预训练模型输出的语义特征为基础,添加了细粒度特征和实体边界特征。其中,细粒度特征是基于先验标签分布设计的词向量扩展编码,实体边界特征是根据实体边界距离设计的平滑边界纹理词向量。通过字符级别的注意力机制,融合了BERT语义特征、细粒度特征和实体边界特征。该方法在细粒度命名实体识别数据集CLUENER上进行验证,表现出比其他命名实体识别方法更好的识别效果。其次,针对小样本命名实体识别问题,在BFB-attention模型的基础上,提出了一种“切片分治”的数据增强方法。该方法可以在数据增强过程中,实现标签序列对齐。对非实体序列采用了EDA数据增强方法,以词向量相似度为依据,对非实体序列进行无条件文本增强;对实体序列设计了字典增强方法,并用Simhash算法快速筛选相似序列。该方法在CLUENER和MSRA数据集上进行小样本测试,其识别效果较原方法更好。然后,针对某飞行器加工过程工艺信息提取的工程实例,实现了从案例分析到数据预处理、再到算法应用及系统开发的一整套流程。基于多模态数据的特点,设计了数据清洗、模态归一等预处理方法,将BFB-attention模型加“切片分治”数据增强的命名实体识别框架应用于工艺信息的命名实体识别中,并使用真实的工艺规程数据,验证了上述方法的识别性能。实验结果表明,该方法可在工艺规程数据中取得0.937的F1分数,相较其他方法能更准确的提取工艺信息。通过开发工艺信息提取系统,封装了文档预处理和识别模型,实现了工艺文档中信息的结构化提取。最后,对全文的主要工作进行总结,并展望了值得进一步研究的方向。
其他文献
跨界污染治理机制研究主要涉及被行政边界所分割的环境公共品如何有效提供及管控等问题。多年来环境经济学主流观点集中于,政府对环境的规制职能应限定于制定环境标准、提供信息平台以及健全法律法规等对市场秩序的基础维护方面。十八届三中全会提出既要充分发挥政府在环境治理机制建立过程中的引导作用,又要结合国家相关政策和当地实际情况,研究公共政策的实施和改进对生态环境保护的具体影响。正式将我国环境治理主体选择问题及
快锻液压机锻件的检测精度影响锻件的成形尺寸,近年来关于快锻液压机的尺寸精度研究主要集中在了液压控制方面,快锻液压机的工作特点、机身受力变形等对锻件的尺寸检测精度有较大的影响,进而影响锻件的尺寸精度,但鲜有人进行相关研究。因此,从快锻液压机工作特点出发,研究快锻液压机锻件尺寸检测精度的影响因素,对提高快锻液压机的检测精度以及锻件的尺寸精度具有重要的意义。本文针对当前快锻液压机采用位移传感器无法直接测
“十四五”规划从宏观层面强调了创新研发的重要性,对全社会研发投入的各项指标提出了具体要求。创业板公司中占有较大权益份额的股东为维护自身利益,其决策行为很可能会影响研发投入和市场绩效。基于此,以2015—2019年创业板公司作为研究对象,使用回归分析和中介效应检验等方法,实证检验股权集中度、研发投入与市场绩效的内在联系,并重点关注研发投入的中介作用。研究发现:在其他条件不变的情况下,股权集中度抑制了
随着我国经济的转型,人口红利的逐渐消失,未来建筑行业发展装配式建筑早已是大势所趋。根据国内装配式混凝土剪力墙结构的不同类型,分析了大板结构、空心剪力墙结构、内浇外挂剪力墙结构、双面叠合剪力墙结构的结构概念、结构设计难点以及其优缺点。空心模剪力墙结构体系和叠合剪力墙体系在保证装配式混凝土结构安全的同时,具有施工简单、低成本、适合大规模生产的特点,因此建议优先推广使用。
随着智能制造的发展,基于卷积神经网络(CNN)的故障诊断方法成为了研究热点。学习率作为深度学习最重要的超参数之一,对CNN模型的最终性能有很大影响。传统的学习率调整方法耗时费力,且过度依赖于专家的经验。现有的学习率优化算法由于具有固定的变化规律,难以保证其在不同数据集之间的泛化性能。本文提出一种新的基于深度强化学习(DRL)的学习率调度器,用于处理故障诊断问题的CNN模型,并在工程案例中进行验证。
斗转星移,时代变迁,随卫星制作及发射相关技术的进步,低轨卫星(Low-Earth-Orbit Satellite,LEO)通信网络正在改变传统卫星行业以及移动通信领域的市场格局。囿于传统卫星通信网络架构限制,卫星仅作为信息中转站对任务进行中继转发,存在较大的传输时延,不能有效满足高实时性任务的低时延需求。为应对海量物联时代的众多挑战,LEO通信网络正在被期待提供更丰富的功能。因此,LEO通信网络新
近年来,信息技术在人们日常生活中的普及和渗透使得“人人拥有IT”,因而催生了信息系统个人化的趋势,即用户可以根据自己个性化的需求和偏好,对多个不同的信息系统进行挑选、整合和运用。但现有的关于用户多信息系统使用的理论和研究还相对空白。已有的信息系统使用研究大多还是从单一视角去理解用户对某一个信息系统的使用(如采纳、持续使用、使用方式和使用结果等),而这对于理解信息系统个人化背景下的用户行为是远远不够
固体氧化物燃料电池(SOFC)是一种高效的能量转换装置,能够将燃料气体中的化学能通过电化学反应直接转换为电能。对于Ni-YSZ阳极支撑型SOFC,多孔阳极的微观结构特征导致燃料气体在扩散过程中会出现较大的浓差极化现象,从而引发SOFC的电化学性能衰减。已有研究表明,可通过调控阳极厚度与孔隙的方式减小浓差极化,但这也将对SOFC的力学和电化学性能产生影响。影响主要体现在两方面:一、单电池串联形成的电
乳腺癌是女性群体中最常见的恶性肿瘤类型,每年新增病例数与死亡病例数均排在第一位。乳腺癌干细胞是存在于乳腺肿瘤组织中具有维持自我更新和分化的亚细胞群,是导致乳腺癌患者对化疗耐受、复发与远端转移的最主要原因。信号诱导的增殖相关蛋白1(signal-induced proliferation-associated protein 1,SIPA1),是小G蛋白家族成员之一,在细胞中除了发挥催化活性Rap1
首先整体简要介绍了ISO 15704、ISO 19439和ISO 19440三项国际标准的基本情况,然后对这三项国际标准的核心内容进行了阐述,在此基础上梳理了三项国际标准之间的关系。