论文部分内容阅读
社交媒体在当今人们的日常生活中扮演着重要的角色,从微博等大规模社交文本中获得的开源军事情报成为进行军事研判、军事动向预测等多种军事领域任务的重要信息来源。军事领域命名实体识别指从文本识别出军事领域相关的军事武器装备、军事设施等类别的实体,是进行军事情报生成、军事知识图谱构建等研究的基础性关键任务。针对社交文本中军事领域的实体识别研究,面临缺乏军事领域公开语料集和实体类别划分策略、实体边界不清晰、社交文本表达不规范、词的分布式表达不充分、实体识别模型单一、实体识别模型泛化能力弱等问题和挑战。本文面向中文军事领域中实体识别面临的问题和挑战,提出基于多神经网络协作的中文军事领域命名实体识别方法,主要的贡献如下:(1)制定了考虑实体模糊边界的实体标注策略和军事领域实体类别划分策略;提出基于仲裁方式的语料标注和语料质量增强方法,提高语料标注的准确性。构建了包含20,388个句子和15,317条微博,包含武器装备等八个实体类别的军事领域实体语料集MilitaryCorpus,解决了目前缺乏军事领域公开语料集的问题,为实体识别工作奠定了基础。(2)构建了基于BERT-BiLSTM-CRF的多神经网络协作的军事领域实体识别模型。基于BERT(Bidirectional Encoder Representations from Transformer,BERT)的字向量表达模块结合语料的字特征、句子特征和位置特征实现字向量的生成,解决了词的分布式表达不充分的问题;基于BiLSTM(Bi-directional Long Shortterm Memory,BiLSTM)的上下文特征抽取模块实现对字向量的进一步上下文特征抽取;基于CRF(Conditional Random Field,CRF)编码模块实现全局最优标签序列的获取。与目前主流的实体识别模型的对比实验结果显示,本文提出的基于BERT-BiLSTM-CRF模型与基于CRF的实体识别模型、基于BiSLTM-CRF的实体识别模型、基于CNN(Convolutional Neural Network,CNN)-BiLSTM-CRF的实体识别模型相比,有效性显著提升,F1值分别提高了18.65%、8.69%、5.15%;召回率分别提高了28.48%、13.91%、7.08%。(3)建立了基于主动学习的军事领域实体识别方法ALMNER(Active Learning Military Named Entity Recognition,ALMNER),提出了基于样本置信度和样本均衡性的样本筛选算法进行样本筛选,删除样本集中不含军事领域实体的样本,均衡样本集中实体类别,提高军事领域实体识别模型有效性的同时提升了模型的泛化能力,为进一步扩充MilitaryCorpus语料集提供了可行方案。通过实验表明,ALMNER较基于有监督学习的实体识别方法F1值提升了0.48%,较基于随机采样的主动学习实体识别方法F1值提升了3.41%。在识别军事领域特有的军事事件实体时,ALMNER较基于有监督学习的实体识别方法F1值提升了7.56%,较基于随机采样的主动学习实体识别方法F1值提升了7.61%;在识别军事设施实体时,ALMNER较基于有监督学习的实体识别方法F1值提升了3.13%,较基于随机采样的主动学习实体识别方法F1值提升了8%;在识别军衔或军职实体时,ALMNER较基于有监督学习的实体识别方法F1值提升了3%,较基于随机采样的主动学习实体识别方法F1值提升了4.91%