基于集成采样与特征选择机制的不平衡多类网络流量分类方法研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:olivia2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,网络流量分类在网络管理和安全中发挥着很重要的作用。近年来,由于基于有效载荷和端口的方法的性能下降,使得基于机器学习(Machine Learning,ML)的方法变得越来越重要。但是,网络流量分布的不平衡严重降低了ML技术的分类性能,因为使用此分布不平衡的数据集会训练出一个有偏差的分类器,从而在多数类的准确度方面获得更高的性能,而少数类的准确度则更低。近年来,很多研究者针对两类不平衡的问题提出了自己的解决方案,但在现实应用中往往会出现多类不平衡问题,即多个少数类和多个多数类的学习问题,而此问题解决起来比两类问题困难。因此,为了解决多类不平衡分类问题,本文提出了两种新的集成采样方法,分别采用智能欠采样与过采样法用于决策树(Decision Tree,DT)和随机森林(Random Forest,RF)算法上。第一种方法,即ADCUT,是将改进的自适应综合过采样方法(Modified Adaptive Synthetic Over-Sampling,MADASYN)与基于Mini-batch K-means的欠采样(Clustering Under-Sampling Technique,CUT)相结合,此方法在训练决策树(Decsion Tree,DT)前应用于训练数据集。而第二种方法,即ADTO,是通过将Tomek Link(Tomek)欠采样技术和MADASYN重采样技术与RF算法相结合来提高分类器的性能。ADTO是用来平衡RF中的每个Bootstrap的数据分布,使每个基分类器更容易学习到少数类。在这两种方法当中,MADASYN为本文基于ADASYN算法提出的一种改进算法,该方法是在生成合成样本之前增加了基于K最近邻算法的噪声滤波器,以排除少数类中的噪声样本。此外,CUT与Tomek为本文的欠采样方法。在欠采样过程中,通过考虑多数类的每个子空间,本文提出了CUT方法来缓解多数类的类内与类间不平衡问题。并且,Tomek是用来去除决策边界上的多数类样本,使得在类之间有个更清晰的边界。第二方法用Tomek而不是CUT,以减少RF中的每个Bootstrap数据的欠采样时间。这两种集成采样方法的目的是通过MADASYN引入新的知识(样本),并通过CUT和Tomek去除信息不足的多数类样本,从而解决多类不平衡与概念漂移问题。对于计算资源有限或实时性要求高的网络环境,建议使用ADCUT,对于计算资源丰富的网络环境或高性能要求,建议使用ADTO。此外,本文还对每种方法的各个参数进行了全面的研究,以供给未来的研究者参考。在此基础上,本文还提出了集成特征选择(EFS)方法,通过去除冗余和无关特征来进一步提高分类器的性能。EFS建立在现有的四种不同类型的特性选择(Filter Feature Selection,FS)方法和包装方法(Wrapper)之上。首先,初始特征集是通过四个FS进行过滤,得到次优特征子集。然后,EFS采用以DT为指导分类器的包装方法并以曲线下面积(Area Under ROC curve)为评价指标去选择最终的最优特征子集。本文在NetFlow记录上建立分类器,该记录可以从NetFlow的设备中以流的形式提取,这与大多数研究中使用的常见包级特征相比,可以降低成本和额外的工作,因为包级特征的提取需要额外的设备来收集并计算。本文使用四种不同的评估指标,即总体准确度(OA)、几何平均值(G-mean)、F-measure和AUC。本文将所提出方法与现有流行的采样和FS方法在四个不同规模和不平衡的现实网络流量数据集上进行了比较。实验结果表明,与现有的方法相比,该方法在不影响整体分类性能的前提下,对少数类性能有较大的提高。
其他文献
目的分析脑梗塞患者的心理特点以及护理体会。方法选取我院2015年10月-2016年12月神经内科收治的脑梗塞病人200例,随机均分为对照组和实验组各100例。对照组病人给予常规护理
在对现有废弃物品的再生利用方式及相应典型产品案例的分析基础上,归纳提出“以用户自有废弃品作为新成品零部件”的绿色设计途径一一即让企业提供给消费者的不是将废弃品回收
阅读教学可以逐渐提高学生听说读写多方面的能力,并且有利于学生智力的开发,能够使学生的视野更加开阔,甚至可以促进学生良好的道德品质以及正确的人生价值观的形成。本文从四个
研究了芝麻多肽的水解工艺条件及其组分抗氧化活性。采用Box—Behnken试验设计,优化了芝麻蛋白水解条件,对芝麻多肽(SP)和不同分子质量的芝麻多肽(SP1、SP2和SP3)清除DPPH自由基活
英国英语与美国英语的普通词汇中有相当一部分词的含义存在着差异,因而在表述同一事物时各自用不同的词。根柢欠深的英语学习者对此往往不甚了了,分辨不清,一旦同英、美人士
新闻价值观是人们在一定的认知基础上形成的观念系统。有什么样的新闻价值观就会有什么样的新闻价值标准。新闻从业人员在新闻制作中受新闻价值标准的制约,因此,人们经常使用新
网络环境鱼龙混杂,充斥着垃圾邮件和网络推广,这些行为损害了网络消费者的选择权,而垃圾邮件和商业推广也是商家侵犯网络消费者权利的集中体现。
提出一种无失真滤波器方法,并从理论上证明了这种方法的正确性,从而找一种既能抑制领道干扰,又能使受检信号不失真恢复的方法。解决了瞬态检测理论在实际应用中所遇到的关键问题
【正】 一、政府方面的组织机构在日本总理府里设有“老人对策室”,由日本各省,如厚生省、农林省、劳动省等部门组成。“老人对策室”由内阁总理大臣直辖,主要制定日本老年人
高等师范教育目的是为基础教育培养师资,这应该是非常明确的。然而,高师美术教育目的却模糊不清,究其原因,是我们对高师美术教育培养目标———中学美术教师的职业特征模糊不清。