论文部分内容阅读
随着计算机网络技术的快速发展,各行各业信息化的不断推进使得计算机网络已经深入到工作和生活的各个方面。网络的广泛应用进而导致了网络中的数据急剧增加,这些数据中携带了许多敏感信息,所以说网络在人们的工作和生活中提供了极大的便利,同时也存在巨大的安全隐患。网络安全问题日益严重,威胁着人们的隐私与财产安全。入侵检测作为一种有别于防火墙的安全技术既能提供对来自外部的攻击也能提供对来自内部的攻击的实时监控,它部署在网络中的关键位置收集数据,从中找出潜在的安全威胁行为。传统的两种入侵检测技术主要是误用检测和异常检测,这两种技术在入侵检测的两个指标误检率和检测率上各有长短,前者在入侵检测过程中的特点是误检率低同时检测率低,不能检测新型的位置攻击是最大的问题,后者正好相反,特点是检测率高而误检率高,它能够检测出新型的攻击,适应性好,但是存在高误检率问题。数据挖掘技术能够从大量的数据中提取出隐含的知识或规则,这一特点契合了入侵检测的需要。将数据挖掘引入入侵检测对网络数据进行处理,提取蕴含其中的用户行为规则,有助于提高入侵检测系统自适应性和效率。本文分析了当前入侵检测系统的现状以及存在的问题,构建了基于分类算法的误用检测模型和基于聚类算法的异常检测模型,分别在两种模型基础上比较了4种分类算法和两种聚类算法的检测性能;针对数据集中各种入侵数据分布不均衡问题,提出平衡训练集的思想;并对聚类结果判断不准的问题,提出将已知类型的攻击注入训练集的监督式的方法;针对K-means算法存在的不足引入属性重要度权重向量改进了K-means算法在入侵检测中的性能;对于KDDCup数据集属性繁多存在冗余属性的问题利用决策树中的信息增益技术对属性进行约简去除冗余属性。最后在两种单一模型的基础上构建了一个基于误用检测模型和基于异常检测模型的混合模型,并在该模型中应用HNB(Hidden Naive Bayes)算法和改进K-means算法,利用数据挖掘工具WEKA在KDDCup数据集上进行实验分析验证了该模型的检测性能。