基于半监督集成学习的网络入侵检测方法研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:lianhehe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的不断发展,网络安全问题层出不穷,网络攻击的方式也变得复杂多样。入侵检测系统具有主动防御的功能,能够对网络流量进行持续监控,提升了系统的安全性。近年来,随着机器学习技术的普及和计算力的大幅提升,大量基于机器学习的技术被应用于网络入侵检测领域,相较于传统的网络安全防御手段,更能适用于当今网络攻击复杂多样化的环境。但在大量的网络数据中入侵行为只占少数,数据分布不均衡,而且原始网络流量存在大量冗余数据,这些问题造成入侵检测模型对入侵行为识别的准确率低。因此研究如何处理数据不均衡问题以及提升入侵检测模型的性能也具有现实意义。本文的主要研究工作如下:(1)本文详细介绍了入侵检测系统出现的背景知识和现实意义,介绍了基于传统规则匹配、统计知识、基于机器学习的入侵检测方法的国内外现状。同时阐述了和与本文相关的入侵检测系统、数据预处理和机器学习相关知识。(2)针对入侵检测数据中存在的数据不均衡问题,研究了基于生成对抗网络的数据增强方法。该方法通过生成对抗网络学习数据集中的稀有类数据的数据特征,并对入侵检测数据集中的稀有类数据进行了数据增强。对经过数据增强后的数据集利用自编码网络进行特征降维,缩短模型训练时间,使得神经网络快速收敛。本文在NSL-KDD数据集上设计了数据增强前后对比实验和二分类实验。(3)针对单一基于机器学习的入侵检测方法建立的模型准确率低、泛化性差等问题,研究了基于Bagging方式的集成学习入侵检测方法。利用自主随机采样方法采样得到多个数据子集随后利用分割出的多个数据子集训练基分类器,最后采用加权投票的集成学习组合策略得出最优模型,避免了单一机器学习建立的模型容易陷入局部最优解的困境。本文在NSL-KDD数据集上设计了二分类实验和五分类实验进行对比。本文的创新之处如下:(1)提出了一种基于生成对抗网络的网络入侵检测数据增强方法。生成对抗网络由一个生成器和判别器组成,该方法是在研究入侵检测数据集的基础上将生成器的网络改为长短期记忆网络,在训练完成之后能够更好的生成入侵检测数据集中的稀有类数据,以达到数据集中各类数据保持均衡的效果。同时利用了自编码网络进行特征提取,以加快模型的收敛速度。通过实验,对于数据集中少数类分别增加了3000条数据,在随机森林模型上进行数据增强后准确率要高0.96%,结合自编码网络特征提取方法与基于生成对抗网络的数据增强方法的本文方法建立的模型在KDDTest+测试集中要比RNN模型高出了3.06%,在KDDTest-21测试集中比LDA-CNN模型高出了8.76%。(2)提出了一种基于Bagging方式的集成学习网络入侵检测方法。利用Bagging集成方式将多个基分类器进行集成,以使本文模型的准确率更高。其中赋予了BiLSTM模型更高的权重,以增强模型的泛化性。通过与其他实验对比表明,在同样的基准数据集中,本文方法在二分类的两个测试集中准确率分别比RNN模型高5.04%和11.26%,在五分类中的两个测试集中准确率分别比RNN模型高0.94%和1.52%。
其他文献
对电子听诊器采集的肺音进行异常检测,即判断其中是否含有啰音,能够大幅提升呼吸系统疾病早期筛查的效率。但是,目前肺音异常检测还存在以下挑战:(1)标注样本少,正负样本不均衡。经过专业医生人工打标的样本少,且正常肺音数据量远大于异常肺音数据量,无法为检测模型参数的学习提供充足的监督信息;(2)肺音中往往包含大量的噪声,包括:心音、说话声等,使得检测模型容易出现过拟合问题。针对以上挑战,本文的主要工作包
工业产品质量在线实时视觉检测是智能制造的一项重要工序。目前主流的检测基于人工提取特征,然而这种方法维护成本高和系统迭代慢。另外,面对复杂检测场景,往往难以有良好效果。深度学习作为一种新型人工智能技术,在视觉任务上获得优异性能。但是,深度学习模型性能严重依赖大量带标签的样本数据。在视觉检测任务中,缺陷样本是少量,而且缺陷区域的标记是困难的,耗时的。解决此问题方法主要有:标记框和像素级标记。相比前者,
近年来,卷积神经网络成为人体姿态估计的主流方法,但是网络结构复杂,在提升精度的同时也带来了大量参数与运算量,难以支持在算力与存储能力受限的终端设备上的实时应用。因此,本文从模型设计的角度出发,以优化模型运算量与精度的平衡为导向,研究轻量且高效的人体姿态估计算法,并以此为基础实现针对健身场景的动作相似度分析系统。本文的主要工作包括:1.结合轻量级卷积神经网络的特点,对Simple Baseline网
进入21世纪后,中国的国力不断发展,人口素质不断提高,人们对工业产品的质量也提出了更高的要求,与此同时,中国的人口红利期已过,人力成本逐年递增,尤其受新冠疫情的影响,导致招工难的问题日益凸显,这对‘中国制造2025’提出了更高的要求,机器换人的政策势在必行。工业机器人作为智能制造的最终执行者,它的研发与推广是机器换人政策实行的重要一环。本文将在已有的并联机器人架构的基础上,针对以CR2032电池生
产品质量检测是工业生产制造过程中的重要环节。传统人工提取特征算法在换向器产品质量检测中存在各种不足,无法满足自动质检要求。为解决此问题,本文探索深度学习方法检测换向器侧面划痕缺陷和端面缺料缺陷,深度学习方法能够自动提取特征,其泛化能力强,期望比传统视觉算法有更好的检测稳定性与准确度。本文主要的工作如下:(1)为解决换向器侧面划痕多尺度检测和细小划痕检测两个问题,提出基于编码器-解码器结构的语义分割
为了解决交通拥堵和交通污染,大容量、高效、准时、安全的城市轨道交通(地铁,轻轨,有轨电车)已成为城市交通发展的最终解决方案。手动检查存在一系列重大问题,在地铁检查行业中,需要更多基于技术的便携式和小型检查设备。因此,本文设计了基于无人机采集图像的轨道缺陷检测系统,主要工作如下:在课题准备阶段,本文首先查询了当下四种主流的轨道缺陷主要检测方案;研究了现在普遍使用的地铁检测方案,深入地铁巡检一线了解现
出租车作为公共交通系统的重要补充,在改善出行服务,提升道路运力方面发挥着较为重要的作用。在实际生活中,由于人群活动复杂多样且各区域人口分布不均,这导致人群的出行需求在时间和空间分布上具有较强的随机性和波动性。出租车因无法及时感知人群出行需求,常常引起客运服务的区域性供需矛盾。如何合理分配城市中车辆运力资源,实现客运服务按需供给成为近年来研究的热点。针对人群出行的特点,本文提出一种基于组合神经网络的
随着工业智能化的不断推进和换向器产能需求的不断提高,过去非常低效率的人工检测传统方法和存在各种局限性的传统数字特征处理检测方法将逐步退出工业缺陷检测界的主要舞台。近些年来,卷积神经网络经过长足的发展,分类、检测、分割的各个领域上都有了突破性进展。越来越多的神经网络框架被应用到各类物品的表面缺陷检测任务中。应用在表面缺陷检测的目标检测框架常常可以划分为一阶检测器和二阶检测器。二阶检测器中经典的网络框
由于在划分无标签且含有缺失实例的多视图数据上具备优势,不完整多视图聚类吸引了越来越多的研究关注。虽然已取得很大进展,大多现有不完整多视图聚类方法仍存在至少一个以下缺陷:(1)无法同时开发数据样本之间跨视图的共同关系及原始数据特征表示的互补多视图信息;(2)忽略视图之间高阶的相互关系;(3)只能处理诸如只有两个视图等特殊视图不完整情况。针对这些问题,本文主要开展了以下两方面研究:(1)为了同时挖掘数
互联网给用户带来丰富资源和便捷服务的同时,因其开放性和匿名性,也成为网络攻击的平台。在众多网络安全问题中,恶意网页扮演重要角色。如何实现对恶意网页的精准快速识别,已经成为一项迫切且具有挑战性的工作。目前,识别方法大致分为四类:基于黑名单技术的检测手段、基于启发式规则的检测方法、基于机器学习的检测方法以及基于蜜罐技术的检测手段。但已有方法都有各自的局限性,必须面向恶意网页检测手段进行更深层分析与探讨