多神经网络协作的军事领域命名实体识别关键技术研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:sunliu168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交媒体在当今人们的日常生活中扮演着重要的角色,从微博等大规模社交文本中获得的开源军事情报成为进行军事研判、军事动向预测等多种军事领域任务的重要信息来源。军事领域命名实体识别指从文本识别出军事领域相关的军事武器装备、军事设施等类别的实体,是进行军事情报生成、军事知识图谱构建等研究的基础性关键任务。针对社交文本中军事领域的实体识别研究,面临缺乏军事领域公开语料集和实体类别划分策略、实体边界不清晰、社交文本表达不规范、词的分布式表达不充分、实体识别模型单一、实体识别模型泛化能力弱等问题和挑战。本文面向中文军事领域中实体识别面临的问题和挑战,提出基于多神经网络协作的中文军事领域命名实体识别方法,主要的贡献如下:(1)制定了考虑实体模糊边界的实体标注策略和军事领域实体类别划分策略;提出基于仲裁方式的语料标注和语料质量增强方法,提高语料标注的准确性。构建了包含20,388个句子和15,317条微博,包含武器装备等八个实体类别的军事领域实体语料集MilitaryCorpus,解决了目前缺乏军事领域公开语料集的问题,为实体识别工作奠定了基础。(2)构建了基于BERT-BiLSTM-CRF的多神经网络协作的军事领域实体识别模型。基于BERT(Bidirectional Encoder Representations from Transformer,BERT)的字向量表达模块结合语料的字特征、句子特征和位置特征实现字向量的生成,解决了词的分布式表达不充分的问题;基于BiLSTM(Bi-directional Long Shortterm Memory,BiLSTM)的上下文特征抽取模块实现对字向量的进一步上下文特征抽取;基于CRF(Conditional Random Field,CRF)编码模块实现全局最优标签序列的获取。与目前主流的实体识别模型的对比实验结果显示,本文提出的基于BERT-BiLSTM-CRF模型与基于CRF的实体识别模型、基于BiSLTM-CRF的实体识别模型、基于CNN(Convolutional Neural Network,CNN)-BiLSTM-CRF的实体识别模型相比,有效性显著提升,F1值分别提高了18.65%、8.69%、5.15%;召回率分别提高了28.48%、13.91%、7.08%。(3)建立了基于主动学习的军事领域实体识别方法ALMNER(Active Learning Military Named Entity Recognition,ALMNER),提出了基于样本置信度和样本均衡性的样本筛选算法进行样本筛选,删除样本集中不含军事领域实体的样本,均衡样本集中实体类别,提高军事领域实体识别模型有效性的同时提升了模型的泛化能力,为进一步扩充MilitaryCorpus语料集提供了可行方案。通过实验表明,ALMNER较基于有监督学习的实体识别方法F1值提升了0.48%,较基于随机采样的主动学习实体识别方法F1值提升了3.41%。在识别军事领域特有的军事事件实体时,ALMNER较基于有监督学习的实体识别方法F1值提升了7.56%,较基于随机采样的主动学习实体识别方法F1值提升了7.61%;在识别军事设施实体时,ALMNER较基于有监督学习的实体识别方法F1值提升了3.13%,较基于随机采样的主动学习实体识别方法F1值提升了8%;在识别军衔或军职实体时,ALMNER较基于有监督学习的实体识别方法F1值提升了3%,较基于随机采样的主动学习实体识别方法F1值提升了4.91%
其他文献
挥发性有机污染物(VOCs)是公认的对人体有毒有害的一类大气污染物,经过一系列的光化学反应会形成雾霾,因此治理VOCs是实现“蓝天保卫战”的重要方面。光催化技术具有的独特优点
纤维增强复合材料(Carbon Fiber Reinforced Polymer,CFRP)具有强度高,质量轻,实际操作方便简单、不易被腐蚀,耐酸碱等优点,解决了混凝土结构加固中遇到的许多问题。然而从实际
随着经济的迅速发展,风力发电已成为新能源发电技术形式中最具有代表性的,而双馈风电场又是风力发电中应用最广泛的发电方式。双馈风电场中的核心部分为双馈感应电机(Double-
永磁开关磁链电机(Permanent Magnet Flux-Switching Motors,PMFSM)作为新出现的永磁型可控调速电机,具有转矩脉动小、可控性强、调速性能好等优点,在新能源领域与航空航天领
本文采用共沉淀法制备了Cu-Al2O3纳米粉体和Cu-Al2O3@AD复合材料,并采用X射线衍射分析仪(XRD)、场发射扫描电子显微镜(FESEM)、傅里叶变换红外光谱仪(FTIR)、X射线光电子能谱分析仪
本文研究了线性奇摄动控制系统内能稳干扰解耦问题的可解性.传统奇摄动方法的特征是基于极限系统(即在标准条件下,由快慢子系统的两部分组成)的内能稳干扰解耦问题的可解性,
随着矢量控制在永磁同步电机驱动器中的实现,永磁同步电机对负载兼容度的要求也逐步提高。负载的变化除了以扰动转矩变化的形式影响系统,还会使电机模型的参数发生摄动。这些
本论文研究航天发动机高精度叶片辊轧机轧辊含丝杠—斜板传动的轴向调整机构的动力学特性。轧辊轴向调整机构为改造机构,对其进行动力学仿真,检验此机构是否能满足调整要求的
随着芯片集成技术的飞速发展,使得BGA封装技术更加的普及,封装的环境也越来越复杂,导致X-Ray探伤生成的射线图像的背景干扰也变得多种多样,造成基于传统算法的BGA气泡检测已经渐渐不适用于当前环境。因此,本文针对BGA焊球在X-Ray探伤检测中存在的背景干扰复杂、焊球气泡对比度低以及部分焊球存在边缘气泡误分割的问题,展开了一系列的研究。首先,针对在BGA射线图像检测过程中,易受到线盘、芯片等复杂背
凝胶类物质被广泛应用在食品工业领域,蛋白质和多糖是食用凝胶中最常涉及的两类生物大分子。团队前期利用乳清浓缩蛋白(WPC)和茁霉多糖(PUL)通过热诱导制备复合凝胶,包埋乳酸