论文部分内容阅读
网络威胁情报在抵御网络威胁方面的价值日益凸显,运用威胁情报驱动网络安全防御已成为企业和组织的广泛共识。实际上,收集威胁情报并加以分析和共享是一种空间换取时间的有效网络安全防御措施。通过主动探测现有或潜在的网络威胁,提高面临威胁时的响应速度,可在一定程度上改变网络攻防不对称的局面,实现网络态势感知。然而,威胁情报类型复杂,应用场景多变。随着信息快速生成,威胁情报更新迅速,给安全人员实时分析利用威胁情报带来了挑战。各安全厂商发布的威胁情报通常为文本形式,包含大量的非结构化数据。同时,冗余信息和专业领域词汇的存在一定程度上降低了威胁情报的可用性。知识图谱在各领域的广泛应用为网络智能防御提供了新的思路:作为最有效的知识集成方法之一,知识图谱能够通过高效可视化安全知识,关联融合多源异构数据,对攻击进行追踪溯源,实现威胁感知,检测新型网络威胁。本文将知识图谱推广至网络安全领域,面向网络威胁情报知识图谱构建与应用过程中所涉及到的关键技术展开重点研究。针对现有威胁情报通常为来源广泛的非结构化数据的问题,设计实体抽取和关系抽取模型,改进损失函数,融入多种特征,建立知识图谱,开发基于Neo4j图数据库的知识查询系统。本文主要工作如下:1.提出融合Focal Loss的网络威胁情报实体抽取方法。网络威胁情报中蕴含丰富的威胁情报知识,多以自然语言文本的形式存在,抽取其中关键要素是构建知识图谱的重要基础。然而,威胁情报文本通常囊括了网络攻击类型、攻击实施手段、网络犯罪组织等具有高度领域特征的词汇,且样本标签数量参差不齐,导致现有实体抽取方法无法取得令人满意的效果。为此,针对威胁情报的专业词汇问题,在模型中增加单词和字符特征。同时,为缓解少数类样本性能受限的问题,提出一种融合Focal Loss的实体抽取模型,引入平衡因子和调制系数,平衡正负样本比例,提高困难样本损失权重,提升威胁情报实体抽取的性能。2.提出特征增强的文档级网络威胁情报关系抽取方法。关系抽取在挖掘威胁情报文本关键威胁要素之间关系及构建威胁情报知识图谱中发挥着重要作用。然而,现有关系抽取模型在威胁情报领域面临诸多挑战。为解决威胁情报开源数据集缺乏的问题,从博客、论坛等网站收集威胁情报并进行人工标注,构建威胁情报本体,规范威胁情报知识图谱中的实体和关系。针对威胁情报文档结构复杂的问题,设计一种特征增强的文档级关系抽取模型,充分利用文档中的信息。同时,引入教师-学生模型,实现知识蒸馏。利用过采样方法缓解威胁情报样本不平衡问题,与主流模型相比大幅提升模型性能。3.提出融合多模型的网络威胁情报信息抽取方法。威胁情报中相关实体分散在整篇文章中,彼此间关系错综复杂,人工分析耗时耗力,难以实时跟进更新。为此,提出融合多模型的网络威胁情报信息抽取方法,将零散分布、多源异构的安全数据组织起来,主要包含实体抽取、共指消解、关系抽取和知识图谱构建四个关键步骤。在实体抽取任务中,不同单词对实体的判别有不同程度的贡献,引入自注意力机制,获得对实体重要的向量表示。在共指消解任务中,结合上下文信息与提及嵌入,引入卷积神经网络,提取提及表示局部特征,与全局特征融合,增强表示能力。在关系抽取任务中,融入词性、宽度等多种特征,增强嵌入表示。抽取出结构化的三元组数据,填充入知识图谱中,展示实体及其之间的关联关系。4.开发基于网络威胁情报知识图谱的知识检索系统。威胁情报包含丰富的知识,分散在文本的各个位置,给信息检索带来了挑战。为高效获取其中知识,开发一个基于网络威胁情报知识图谱的知识检索系统,该系统能够分析处理的自然语言提问包括属性查询类、节点查询类、反向查询类、属性比较类四种类型,针对不同意图设计相应模板,接受用户的自然语言提问。将问句转换为Cypher查询语句,输入Neo4j图数据库中检索结果,生成人类可读的自然语言答案,大大简化搜索流程,降低了获取碎片化威胁情报知识的难度。