论文部分内容阅读
随着大数据时代的来临与互联网技术的发展革新,信息以电子文本的形式在互联网上流传,其中以非结构化文本信息占据主要地位。当人们真正需要某些信息的时候,如何从海量的非结构化文本信息中提取需要的信息便成为了难题,由此诞生了信息抽取这门技术。本课题来源于国家重大专项,着眼于军事情报机构对文本情报进行快速高效信息抽取的现实需要,拟以人物活动为信息重点,展开面向文本情报的人物活动要素识别与补全技术研究。论文对构建面向文本情报的人物活动要素识别与补全原型系统所涉及的基础技术知识及模块构建流程进行了介绍。主要工作如下:首先,提出了一种领域神经中文分词方法,该方法利用互信息(Mutual Information)和熵(Entropy)对文本情报进行潜在新词抽取,得到新词词典后结合术语词典对领域语料进行分词,最后利用双向长短时记忆网络-条件随机场模型(Bidirectional Long Short-Term Memory and Conditional Random Field,Bi-LSTM-CRF)对分词语料进行训练生成分词模型。接着提出了基于预训练词向量的中文命名实体识别方法,构建了带有自定义实体标注的军政领域语料库,引入了深度双向预训练转换器(Bidirectional Encoder Representations from Transformers,BERT),当前中文表现最佳的词向量包——基于全词覆盖的中文BERT预训练词向量(Pre-Training with Whole Word Masking for Chinese BERT,BERT-wwm),对词向量进行了命名实体识别任务的微调,结合Bi-LSTM-CRF模型得到了泛化性能较高的军政领域实体识别模型。引入CN-DBpedia知识图谱作为系统知识库支撑,实现了实体对齐及信息补全的功能。针对语料特点,自定义了七种军政领域语料包含的事件类型,对各类事件进行了优先级排序,制作了对应事件的触发词表,实现了基于触发词的文本情报层级事件抽取。最后将系统的实体识别模块、实体对齐模块、信息补全模块、事件抽取模块的后端程序集成打包,并开发了基于Flask框架的前端演示界面。论文最终完成了面向文本情报的人物活动要素识别与补全原型系统,满足情报人员从可视化界面输入文本情报并得到各种人物活动要素反馈的功能需求,实现了应用落地。