主机序列样本生成和异常检测

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:tanjuan1980
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今热门的互联网的应用领域,如云计算、Io T中,主机入侵检测技术的成熟应用能很大程度上提升关键基础设施主机的安全水平。在基于主机入侵检测技术研究方面,前人已形成较为丰富的研究成果,如基于N-Gram滑动窗口方法、基于传统机器学习进行特征提取的方法、基于深度学习的方法等,从侧面展现出主机入侵检测研究的重要性。上述方法各有特点,但在现实训练中,分别存在训练数据要求高、计算代价高、易过拟合等现实问题,有待进一步研究优化。此外,在开展相关研究时,入侵检测数据集中异常样本的数量和比例普遍偏低,影响了对检测方法的效果评价,需要考虑通过过采样的方法提升异常样本数量。本文认为,此前学者常常采用的SMOTE过采样方法仅适用于连续型的数据,因此,在该领域开展过采样技术的研究也有重要的意义。针对主机序列异常检测以及样本平衡两个领域的问题,本文在研究当前技术的基础上,提出了多种方案,并通过在ADFA-LD数据集的实验分别验证其有效性。本文主要研究内容如下:在异常检测方面,首先,提出两种基于关键命令提取的检测方法。其一,针对主机序列中命令分布稀疏的特点,提出基于Lasso关键命令提取的异常检测方法,实验表明,通过Lasso回归能有效降低主机序列特征的维度,在KNN分类器下实现较好准确率,并且所需特征维度可控制在较低的范围。其二,提出基于Text Rank关键命令提取的方法,根据主机序列的语义化特点,将每串主机序列转换为有向有权图,并计算序列中所有命令的Text Rank权重,根据权重高低提取每串序列的关键命令。实验证明该方法可较传统基于TF-IDF的方法提升单次判断效率。其次,本文提出了一种基于序列向量的主机序列异常检测方法,先对所有命令进行词嵌入表示,然后通过主机序列建模,将主机序列转化为向量。实验中,对向量化后的命令和序列分别进行了可视化探索,在异常检测中,发现序列向量在简单的1-NN分离器下,可实现较为理想的检测结果,特别是在误报率表现方面,较前述方法有了极大提升。此外,对于不同的词嵌入方法在该模型中的应用效果,进行了一定的比较。样本平衡方面,为解决异常训练样本不足的问题,本文在前人研究基础上,将深度卷积生成对抗网络的方法应用在少数样本生成领域,并提出一种对Adam进行优化的方法,从而增加了收敛频率,制造更多生成样本;在进一步实验中,通过多种异常检测技术对该方法展开验证,与其他数据平衡方法进行比较,以及在不同样本平衡程度下,对该方法所生成样本在数据中的检测效果进行讨论。结果表明,该方法生成的异常样本能被有效识别出来,不同程度地改善各类检测方法的检测结果。
其他文献
随着5G时代的到来,移动用户设备数量的快速增长,所产生的数据流量也呈指数增长,给蜂窝网络中的基站带来巨大压力。虽然5G通信基站已经逐步普及,但以固定基站为主的5G通信网络,仍然会面临挑战。蜂窝网络中的基站运行负载有限,在面对临时的爆发性流量时,当流量规模超过基站运行负载,就会造成网络拥堵,影响用户体验质量(Qo E)。支持无人机的移动边缘计算是解决该问题的有效方法之一。如若能够预知潜在的爆发性流量
大数据和云计算的快速发展,使得人们可以方便地将海量信息上传至云服务器中存储,或者利用它的强大运算能力为自己服务,与此同时,也给人们带来了诸多信息安全问题。密文域可逆信息隐藏作为一种可确保隐蔽载体内容的前提下,还可在密文载体中隐藏秘密信息的技术,可有效地保障密文传输过程中的安全问题,同时方便云端管理者对海量信息的管理。因此,研究密文域可逆信息隐藏算法是近年来密码学领域的一大热点。加密后生成空间算法(
随着人们日常生活对室内定位需求不断提升,室内定位技术日益受到国内外学者的关注。现有的室内定位平台大多聚焦于二维平面的定位,对垂直方向的定位研究较少,难以应对当今社会对室内三维定位的需求。目前室内三维定位技术发展的瓶颈主要体现在垂直方向的定位上,因此,在成熟的二维定位基础上,改进楼层定位技术,提高室内定位的服务质量,成为室内三维定位技术突破的当务之急。当前已有的楼层定位方法受室内环境、技术手段等因素
近年来,以LCC谐振拓扑作为主功率电路的高压直流电源由于具有兼容高压变压器寄生参数、工作高效的优点,在静电纺丝、静电除尘和X光机等领域得到广泛的应用,具有良好的发展前景。为了获得较高的输出电压,单级拓扑结构的高压直流电源必须具备较大的匝比,由此带来的较大寄生参数限制了频率的提升,增加了系统的设计难度。级联型高压直流电源能够减小变压器的升压压力,降低寄生参数的影响,有效地克服了以上缺点。因此,研究级
互联网的高速发展为我们的生活带来大量的多模态的数据,而在多媒体数据中进行检索也成为了大多数人的需要。顾名思义,交叉模态检索是一种能在不同模态中进行检索的技术,以其有效且高效的特点,在多媒体数据检索中受到了大量研究人员的关注。而哈希技术的出现,能将海量的数据通过投影转化为二进制代码,大幅度降低了存储空间和检索时间要求,其又将交叉模态检索技术往前推进了一大步。当前的主流方法是利用联合矩阵分解方法学习一
随着我国工农业和物流的发展,带式输送机的使用越来越多,其出现故障越来越频繁。其中带式输送机在长距离、高速度、大容量传输中具有重要的作用,由于我国的整体制造水平和发达国家还有一段很大的差距,很多主要的芯片都需要从国外进口,其中控制系统的核心部件的加工和制作水平达不到现有要求。因此如何研制更加智能的监控系统,提高生产工艺对于现有的带式输送机至关重要,鉴于此研究带式输送机显得至关重要。针对目前我国带式输
随着综合立体交通网建设的持续推进和感知技术在交通领域大规模应用,交通数据在快速增长,这些将成为现代化高质量综合立体交通网的保障。短时交通流预测是综合立体交通网现代化所必须攻克的问题之一,对实现交通疏导避免拥堵和路径规划有重要意义,是路网交通更加智能先进,便捷顺畅,安全可靠的技术保障。为了研究交叉路口短时交通流量预测的问题,本文采用神经网络理论设计了基于多源时空特征的交通流量预测模型。本文中设计的模
混沌密码学是一门融合了密码学和混沌理论的交叉学科,早在二十世纪80年代末就引起各方学者的关注,尤其是在当前大数据时代的背景下,数字图像成为信息交换的主要方式,所以各界研究学者在将混沌密码学用于数字图像加密的过程中,更加注重图像加密系统所具备的实用性和安全性。因此,当前各界学者开展对图像混沌加密算法的密码分析工作具有重要的现实意义。本文对两个图像混沌加密算法进行安全分析,发现算法中可能存在的安全缺陷
在当前的全球市场中,质量和安全越来越成为消费者是否决定购买该产品的重要指标。然而,由于产品生产者与消费者之间的信息不对称,市场监管不利等原因,产品质量问题还时有发生,损害了消费者利益,造成了极坏的影响。因此,世界各国也越来越重视产品质量问题,纷纷从制度和政策等多个层面采取措施加强产品质量和安全监管,并鼓励和提倡社会各界运用先进技术进行产品质量监督和管理。同时,各国学者与企业界人士也从各自不同的角度
随着现代工业的快速发展,产品更新换代的速度越来越快,与此同时,机械产品在生产、使用以及整个设计生命周期的过程中,往往会会对环境造成不可估量的污染,影响工业可持续发展,人们对于绿色生活品质的要求也越来越高。有效设计出符合绿色环保性能的产品和缩短产品的设计开发周期,能够使企业在市场中占据重要地位。绿色高效节能的发电机是机械设备重要的发展方向,与其他发电机相比,永磁发电机具有更高的效率和更高的控制精度。