改进的聚类与决策树算法在入侵检测中的应用

来源 :广东工业大学 | 被引量 : 5次 | 上传用户:wiaoni007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络技术的快速发展带动了网络应用范围的扩大,随之出现了网络安全问题。目前网络攻击手段多达数千种,应对网络安全问题,除了防火墙,比较有效的措施是入侵检测系统。作为主动防御网络攻击的手段,入侵检测需要解决网路数据量大、噪声数据多、在线学习难等巨大挑战,在海量网络数据中正确识别攻击数据也是亟待解决的问题。入侵检测的本质是从大数据集中提取网络数据特征,依据特征判断网络行为是正常行为或者入侵行为,从而把入侵检测问题转化为数据分类问题。本文主要研究了将K均值聚类算法与C4.5决策树分类算法应用于网络入侵检测的相关问题。K均值聚类算法是利用无监督学习过程获取知识的方法,在聚类过程中不需要任何的先验知识,可以发现未知攻击类型,具有过程简单、收敛速度快等优点,但对数据类型的误判率略高。决策树属于有监督的学习分类方法,需要利用网络行为的先验知识预先标记训练数据。它对已知类型攻击有较高的识别率,但对未知攻击类型的检测则差强人意。本文针对两种算法的不足分别对K均值聚类算法和C4.5决策树分类算法进行改进,并将改进后的算法相结合,构建综合入侵检测算法。本文主要工作包括三个部分:第一部分针对传统K均值聚类算法只适用于球形结构数据集的聚类这一不足,提出一种改进聚类准则函数的方法,采用可以反映属性间相关性的马氏距离替代欧氏距离判断样本间的相似度,为了体现不同属性对聚类结果的不同重要程度,在距离度量中加入属性权重因子和矩阵协调因子,提高K均值聚类算法对非球形簇数据集的聚类能力。第二部分针对C4.5决策树分类算法在某些情况下易产生多值偏向这个问题,提出对属性的分裂信息值进行修正,引入与属性值个数相关的协调因子,从而降低多值属性的信息增益率,使算法倾向于选择其他更有分类意义的属性作为分裂节点,避免多值偏倚。第三部分是将改进的K均值聚类算法和C4.5决策树算法相结合构造综合入侵检测算法。给出了用综合入侵检测算法判断入侵的方法,说明了综合入侵检测系统模型的结构并阐述了具体模块各自的功能及实现细节。最后,选取KDD99数据集进行实验,分别将改进后的算法与原算法的检测效果进行对比分析,通过试验数据验证,改进后的算法是可行、有效的。基于改进的K均值聚类算法与C4.5决策树分类算法构造的综合检测入侵检测算法也取得了较好的检测效果。
其他文献
随着个人计算机上数据的海量增长,用户管理和使用这些数据变得越来越复杂。个人数据空间系统为用户数据管理提供了新的思路。如何方便快捷地获取用户所求信息,是当前数据空间
当前计算机视觉领域研究的热点之一就是人脸识别和行人检测,这一技术已经被广泛的应用在很多领域,比如智能电话、智能交通、无人驾驶等。由于算法的精度和速度等原因,很难应
随着Internet技术的广泛应用,人们对信息量的需求变的越来越大。同样在教学活动中,学生对信息量需求也在不断的加大,传统教学模式由于其资源库的局限性,已经无法满足当代学生
便携式拍照设备的普及促进了图像数据的迅速增长,人们对于高效的图像检索方法的需求也越来越迫切。草图图像对于描述人类脑海中的模糊图像概念有着极大的优势,且随着触屏手机
伴随着因特网和Web服务(Web Service)技术的飞速发展,网络上出现了越来越多功能相近的Web服务。在这种情况下,服务使用者就从如何寻找能够满足自己功能需求的服务,转变到了如
B2C电子商务网站系统每天都会生成大量的产品交易数据和访问日志数据,这些数据中蕴含着大量有价值的信息,例如,订单的来源、客户的行为、访问者的兴趣等。分析这些数据,不仅
近年来脑部疾病及创伤严重威胁着人们的生活健康,脑健康问题引起了人们越来越多的关注。借助于医学影像对脑组织进行检查以及定性、定量的分析,从而得到相关脑疾病的信息并给
在当今互联网时代,信息的数量在不断呈现几何式的增长。用户已经不需要担心信息的匮乏,而转向担心如何有效获取信息。搜索引擎作为一支重要力量,极大的提高了用户在海量数据获取
大数据时代,海量知识让人目不暇接,大脑获取的大部分知识来自于视觉,而视觉是最容易获取信息的感官,提升阅读体验成为未来信息领域的核心追求。然而,推进剂配方概念设计过程