论文部分内容阅读
伴随着互联网的迅速普及,人们越来越多地选择将大量的重要信息存储在各种网络设备上。与此同时,各种敏感信息泄露事件的发生层出不穷,对人们的工作与生活造成了巨大的影响。因此如何快速有效地对敏感信息泄露进行检测是当下值得深入研究的问题。现有的敏感信息泄露检测技术主要可以分为两大类,第一类是静态分析技术,该方法无需运行程序源代码,主要通过数据流分析、控制流分析、语法分析以及词法分析等手段对程序源代码进行检测分析;第二类是动态分析技术,主要是通过观察程序在运行过程中的各种状态来进行检测分析。这些敏感信息泄露检测技术都能够在一定程度上实现对敏感信息泄露的检测,但是都存在着各自的局限性。例如静态分析技术无法进行实时检测,动态分析技术的运行效率低下。针对现有的敏感信息泄露检测技术存在的不足,本文提出了基于数据驱动的敏感信息泄露检测技术,通过对敏感信息泄露时传输的数据包进行分析与还原,结合指纹生成技术来完成对敏感信息泄露的检测。论文的主要工作如下:(1)本文设计并实现了一个基于数据驱动的敏感信息泄露检测系统。该系统可以对网络数据包进行实时的监控与分析,从而对敏感信息的泄露的发生能够立即响应,提高了检测的效率;同时对高速网络环境下的敏感信息泄露问题的检测有了很好的支持。(2)本文设计了一个用于敏感信息泄露检测的数据流编程模型SILDFlow,用来对本系统的各个模块来进行设计,不需要考虑其具体的底层实现,只需要实现各个模块的功能,从而提高整个模块之间的并行度,在保证实时检测的前提下从整体上提高敏感信息泄露的检测效率。(3)本系统是从网络数据包的角度对敏感信息泄露进行检测,主要是通过对所监测网络上传输的数据包进行捕获,之后通过数据包的分析与还原得到原始的内容信息,然后通过文本提取与指纹生成得到待检测的指纹信息,最后计算待检测的指纹和敏感信息的指纹之间的文本相似度,通过文本相似度的结果来判断是否发生了敏感信息泄露。