论文部分内容阅读
随着时代迈向万物互联,针对政府、企业与社会的网络攻击事件频发,严重威胁到国家安全与社会稳定。基于知识图谱技术成功应用于各个领域的案例分析,利用知识图谱技术为网络安全领域赋能成为研究热点。网络安全知识图谱可对多源、异构、碎片化的海量数据进行语义分析与理解,将其整合为网络安全情报知识,为更深层次分析提供决策支持。因此本文主要围绕如何利用网络安全大数据构建网络安全知识图谱展开研究,并实现相应的原型系统。本文工作主要围绕以下方面展开:首先,网络安全知识图谱构建的基础知识体系由网络安全领域本体表示,现有的网络安全领域本体因构建时其侧重点不同导致本体难以完全适用于更加广泛的网络安全数据源。因此本文在复用已有网络安全领域本体的基础上,基于现有网络安全数据,综合考虑了资产、脆弱和攻击三个不同维度要素并以此构建了一个具备更强通用性的网络安全领域本体(Asset Fragile Attack Cybersecurity Domain Ontology,AFACSDO),为网络安全知识图谱构建提供支撑。然后,面对非结构化的网络安全数据,网络安全知识图谱构建过程需要进行知识抽取,包括命名实体识别和关系抽取。针对传统命名实体识别采用统计学习方法依赖于人工提取特征的问题,本文在BiLSTM-CRF神经网络模型的基础上,提出一种结合词典特征(Dictionary Feature,DF)、注意力机制(Attention,Att)和卷积神经网络(CNN)的网络安全实体识别模型(DF-Att-CNN-BiLSTM-CRF),该模型将网络安全实体识别任务转化为端到端的序列标注工作。首先通过词向量模型将序列中词表示为词向量,其次采用卷积神经网络获取字符特征表示为字符向量和词向量连接作为模型输入,并利用实体词典捕获词典特征,然后使用双向长短期记忆神经网络模型进行上下文特征提取并引入注意力机制捕获上下文局部关键语义信息,最后利用条件随机场完成网络安全实体识别。将该模型应用到公开数据集进行验证实验,实验结果表明在同等环境下,相较于其他方法该模型提高了实体识别的精确率和F1值,其精确率达到89.97%。基于识别到的实体,利用关系模板实现实体关系构建,完成非结构化数据中网络安全知识抽取。最后,基于已构建的网络安全领域本体知识体系,结合现有网络安全数据,利用非结构化数据网络安全知识抽取、多源异构知识融合、知识验证和知识存储与检索技术完成网络安全知识图谱的构建,并设计与实现网络安全知识图谱原型系统。