面向文本情报的人物活动要素识别与补全技术研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:hongxing35
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的来临与互联网技术的发展革新,信息以电子文本的形式在互联网上流传,其中以非结构化文本信息占据主要地位。当人们真正需要某些信息的时候,如何从海量的非结构化文本信息中提取需要的信息便成为了难题,由此诞生了信息抽取这门技术。本课题来源于国家重大专项,着眼于军事情报机构对文本情报进行快速高效信息抽取的现实需要,拟以人物活动为信息重点,展开面向文本情报的人物活动要素识别与补全技术研究。论文对构建面向文本情报的人物活动要素识别与补全原型系统所涉及的基础技术知识及模块构建流程进行了介绍。主要工作如下:首先,提出了一种领域神经中文分词方法,该方法利用互信息(Mutual Information)和熵(Entropy)对文本情报进行潜在新词抽取,得到新词词典后结合术语词典对领域语料进行分词,最后利用双向长短时记忆网络-条件随机场模型(Bidirectional Long Short-Term Memory and Conditional Random Field,Bi-LSTM-CRF)对分词语料进行训练生成分词模型。接着提出了基于预训练词向量的中文命名实体识别方法,构建了带有自定义实体标注的军政领域语料库,引入了深度双向预训练转换器(Bidirectional Encoder Representations from Transformers,BERT),当前中文表现最佳的词向量包——基于全词覆盖的中文BERT预训练词向量(Pre-Training with Whole Word Masking for Chinese BERT,BERT-wwm),对词向量进行了命名实体识别任务的微调,结合Bi-LSTM-CRF模型得到了泛化性能较高的军政领域实体识别模型。引入CN-DBpedia知识图谱作为系统知识库支撑,实现了实体对齐及信息补全的功能。针对语料特点,自定义了七种军政领域语料包含的事件类型,对各类事件进行了优先级排序,制作了对应事件的触发词表,实现了基于触发词的文本情报层级事件抽取。最后将系统的实体识别模块、实体对齐模块、信息补全模块、事件抽取模块的后端程序集成打包,并开发了基于Flask框架的前端演示界面。论文最终完成了面向文本情报的人物活动要素识别与补全原型系统,满足情报人员从可视化界面输入文本情报并得到各种人物活动要素反馈的功能需求,实现了应用落地。
其他文献
学位
学位
学位
学位
学位
学位
学位
乌克兰独立后,面临着脱离苏联已有国家安全体系、消除现有部门垄断、建立新型国家安全机构的问题,乌克兰安全局(国家安全局)应运而生。乌克兰安全局是维护乌克兰国家安全、具有执法职能的特殊国家机关,隶属于乌克兰总统,受乌克兰最高拉达监督,在维护乌克兰国家主权、领土完整和民主宪政秩序以及其它重大国家利益方面发挥了重大作用。它主要继承于苏联克格勃,拥有庞大的机构、繁多的职能、丰富的手段、强大的权力,在乌克兰欧
本文以文献研究、比较分析为方法,针对冷战后日本对华军事情报工作进行了全面系统的研究。横向上,综合论述日本对华军事情报工作的主要举措;纵向上,梳理总结长期以来日本对华军事情报工作形成的鲜明特点。通过研究发现,冷战后日本在情报政策上不断聚焦中国,持续推动情报机构整合;加强在东海方向对华侦察力量部署;完善武官、谍报等对华人力情报网络;积极在日美对华情报合作框架下拓展新合作伙伴。笔者通过研究认为,日本历来
边缘计算技术的出现,使得服务能够部署在更靠近用户的边缘端,大量数据因此从云端向边缘端分流。这一新型的服务架构,既能够减轻云服务平台与日俱增的负载压力,又可以降低网络传输基础设施的带宽压力。因用户端至边缘端的通信距离短,经过的通信节点设备少,且网络性能相对稳定的特点,边缘计算给依托其运行的应用带来了显著的时延降低效益。边缘计算平台的出现改变了应用运行的基础物理架构,那么应用的研发和部署就必须适应边缘