论文部分内容阅读
数据泄露时时刻刻在我们身边发生,对我们造成极大的威胁。网络黑产将企业和个人信息以白菜价肆意抛售,2017年五角大楼的资料泄密,十八亿个人信息“裸奔”。DNS隐蔽通道是以DNS域名系统为载体,利用DNS查询或者回应的数据包搭建的隐蔽通道。DNS隐蔽通道是最普遍的数据泄露原因之一,它存在范围广,不易检测,严重威胁网络信息安全。基层政府的网络安全基础设施主要靠常规防火墙,从业人员安全意识淡薄,对隐蔽通道之类的数据泄露问题防范不足。文章针对DNS数据包的结构特征,构建数据处理模块和静态检测模块,利用现有的条件对基层政府的网络环境进行分析,从而提高安全性、降低成本。DNS隐蔽通道的检测本质是分类或者预测,本文立足基层政府的环境条件,综合考虑前人的研究成果,提出了运用随机森林来检测DNS隐蔽通道的静态方法并进行实验,通过提取普通DNS流量和实验产生的DNS隐蔽通道流量中的DNS数据包大小、子域名个数、子域名字字符串长度、域名中二进制数据百分比、域名字符熵、应答段资源记录长度、全部资源记录长度、TTL等四类共8项字段进行静态特征检验分析。实验具体过程与步骤包括:1)使用Map Reduce并行计算方法形成数据预处理模块进行数据向量化、填补空缺值和向量标准化操作,形成特征向量集,然后用随机种子生成训练集和测试集;2)数据预处理完成后,用Bagging方法生成决策树样本子空间,然后基于Map Reduce并行计算生成决策树和构建随机森林分类器并进行训练,形成检测算法。随后对检测算法从特征变量的个数、决策树数量和决策树的生成算法等方面进行调优形成检测模块,检测模块在测试集上的表现为分类精度96.49%,召回率95.39%。为了验证检测模块的效果,文章分析了DNS入侵检验(IDS)系统、决策树方法、卷积神经网络、随机森林、贝叶斯分类和逻辑回归的可行性和效果,并引入朴素贝叶斯分类算法和线性逻辑回归算法对数据集进行实验对比研究。本文的创新之处在于:前人关于DNS隐蔽通道检测研究主要是在实验室中,实验室的环境中主要考虑分类或者预测的效果,对实际应用的硬件条件、人员素质、运用环境的成本、使用推广等因素比较少考虑;而本文是在基层政府网络环境中,首次运用随机森林方法检测DNS隐蔽通道。实验结果表明,随机森林方法在检测DNS隐蔽通道的分类性能上表现优秀,且能兼容基层政府网络环境。为了将检测模块用于实践,笔者从工作的科室网络中提取了2000条DNS记录,对其进行数据预处理和检测分析,从中检测到了112个疑似DNS隐蔽通道记录并提交网络管理员处理。本文提出的基于随机森林的网络DNS隐蔽通道静态检测方法及相关算法对相关研究与应用具有较好的参考价值。