基于预训练模型的航天情报命名实体识别方法研究

来源 :中国科学院大学(中国科学院国家空间科学中心) | 被引量 : 0次 | 上传用户:chy006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
航天情报实体识别是航天情报信息提取的一个子任务,摆在航天情报信息提取任务面前最大的难题就是标注语料的缺乏。因此,本文以航天情报领域缺乏标注语料这一难题作为切入点,一方面融合多源异构知识构建知识库,通过知识库指导标注小规模数据集,另一方面通过预训练模型进行迁移学习来解决标注数据量较少的问题,通过以上两方面工作解决航天情报领域存在的数据集少、标注数据困难等问题。本文主要研究航天情报实体识别(Aerospace Intelligence Entity Recognition,AIER)。本文的主要研究内容如下:1.对数据库、书籍、互联网等蕴含的航天领域知识,提出相应的提取、融合办法,并构建航天情报知识库。利用知识库驱动的启发式标注算法进行数据集的标注。2.构建基于统计机器学习方法的航天情报实体识别模型,本文分别用隐马尔可夫模型(Hidden Markov Models,HMM)、条件随机场(Conditional Random Fields,CRF)模型进行航天情报实体识别任务,发现CRF模型在标签预测上具有更好的效果。3.结合深度学习的表示学习能力和CRF模型的结构化预测能力,并应用到航天情报实体识别任务上。结合双向长短期记忆网络(Bidirection Long ShortTerm Memory,Bi LSTM)和CRF模型,构建了Bi LSTM-CRF模型。该模型能够达到91.88%的准确率、93.64%的召回率和92.75%的F1值。4.从航天情报实体识别数据集较小这一问题入手,使用大规模中文语料库上训练过的预训练模型,通过迁移学习的方法,应用到航天情报实体识别任务上,以BERT(Bidirectional Encoder Representations from Transformers,BERT)和ALBERT(A LITE BERT,ALBERT)为基础,分别构建了BERT-CRF模型和ALBERT-CRF模型。其中BERT-CRF模型能够取得93.68%的准确率、97.56%的召回率和95.58%的F1值,相较于Bi LSTM-CRF模型,其中准确率提升了1.8%,召回率提升了3.92%,F1值提升了2.83%。5.本文构建了基于预训练模型的中文航天情报实体识别软件系统,能够快速、准确的从航天情报中识别航天实体。
其他文献
随着无线通信技术的飞速发展,物联网应用逐渐成为人们生产生活中不可缺失的一部分,保障无线网络的安全也变得愈发重要。无线网络由于具有开放性的特点,网络通信容易受到窃听、欺骗等恶意攻击,导致信息的泄露与破坏。传统基于加密协议的身份认证方法无法有效的应对窃听、身份伪造等恶意攻击。并且在结构简单、算力有限的物联网场景中很难采用复杂的算法验证身份。射频指纹因其稳定性与唯一性,可以有效的对设备身份进行识别,在物
借鉴国外的先进模式,吸取其成功经验,我们建立了一个热层大气动力学模式(Thermospheric Dynamic Model,简称TDM模式),研究太阳活动和地磁扰动对高层大气密度、温度和风场的影响。目前模式能够成功的模拟80-500km高度热层大气对太阳活动和地磁扰动事件响应的基本特征,得出不同太阳活动和地磁扰动条件下的稳定平衡风场;可计算出指定高度上的密度、温度等值线图和风矢量图、指定经纬度上
太阳质子事件是一种由太阳活动引发的有害空间天气现象,会将大量的高能粒子传播到近地空间,造成航天器故障,并且会对宇航员的健康造成严重伤害。因此,太阳质子事件的短期预报,对于航天活动的灾害预防有着非常重要的意义。近几十年来,国内外研究人员针对未来24小时内太阳质子事件发生情况的预报,提出了大量的方法。这些方法中普遍存在着虚报率较高的问题。本文在国内外研究进展的基础上,提出了一种基于集成学习方法的预报模
本文对太阳风中的慢激波观测、磁云边界层的磁层响应以及磁云边界层中朗缪尔波活动现象三个方面作了初步观测研究,主要研究结果如下:1.历史上太阳风中慢激波的观测非常少,利用WIND飞船的高分辨率磁场和粒子观测数据,我们严格证认了一例典型的慢激波事件,该慢激波正好位于某磁云边界层的前边界.该事件也是文献上首次和磁云相关的慢激波事件的报道.在证认慢激波事件过程中,我们提出一种新的基于Rankine–Hugo
随着逐步突破和掌握载人飞船、航天员太空出舱、飞行器空间交会对接等核心技术,我国载人航天工程已经进入到了“三步走”战略的空间站阶段。未来,我国将在空间站开展一系列科学实验,其中,空间材料科学实验是毋庸置疑的重要研究方向。高温材料实验柜作为空间材料科学的综合实验平台,未来将承担至少数百个样品的科学实验。为保证将来空间科学实验的成功,每一个空间实验都需要反复地进行地基匹配实验。那么,面对如此高频次开展的
在空天领域,遥感图像处理一直在推进智能化发展,卷积神经网络(Convolutional Neural Networks,CNN)等人工智能算法正在逐步取代传统算法。为适应未来更加复杂的任务场景,卷积神经网络算法发展迅速,星上系统需要实现卷积神经网络的快速部署,并且已经部署的卷积神经网络需要根据目标需求实现快速的优化迭代。目前星上系统广泛使用的硬件平台是现场可编程门阵列(Field Programm
航天科学的发展使得卫星任务逐渐复杂,要求能够实时的处理星上载荷捕获的数据。本文以天文图像差异算法为例,在CPU-GPU异构嵌入式平台上开展了天文图像算法在轨实时处理研究。图像差异算法是时域天文学中用于搜索瞬态物体或识别具有时变亮度的物体的有效方法。通常天文图像差异法是通过拍摄同一观测区域的两幅对齐图像,计算两幅图像的一个空间变化卷积核,最后利用卷积核获得差分图像。通过系统地观察特定天空区域并追踪我
无人机(Unmanned Aerial Vehicle,UAV)在军用、民用等领域应用十分广泛,它可以携带侦察设备为人类搜集视频信息,给人类的生活带来了很多便利。然而,由于航拍视频数据量巨大,在实际应用时,必须对这些数据进行压缩编码。高效率视频编码标准(High Efficiency Video Coding,HEVC)是目前使用最为广泛的编码标准之一,相比于H.264/AVC,HEVC可以做到在
暗弱空间运动小目标检测在航天及军事领域有着广泛的应用,本文面向国家安全和战略制衡对地月空间广域监控的迫切需求,并针对地月空间超远距离目标探测识别中低信噪比运动小目标难以检测的问题,开展了在复杂星场背景下的暗弱空间运动小目标检测的研究,分析了背景及暗弱运动目标的特性并构建了目标与背景的交互模型,实现了在复杂星空背景下极低信噪比运动目标的检测,最终达到提高空间广域目标探测识别水平的目的。本文提出的方法
航天科技的发展离不开先进材料的研究,我国自863计划后,开始了新材料的空间科学探索。经过几十年的蓬勃发展,空间材料科学已经不断得到发展和完善,随着我国空间站的建立,今后将有越来越多的空间材料科学实验在太空中开展。由于航天飞行器的搭载机会有限,成本较高,为了提高空间实验的成功率,需要通过地面匹配试验,提前对样品材料展开实验工艺过程的研究,而地面匹配试验的数量将会是空间实验的数倍以上。在如此大规模的地