基于有监督学习的数据流多维序列异常检测技术研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:magicglf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
动态高速数据流上的异常检测技术在近年来逐步成为研究热点。其中,数据流上的多维序列异常检测技术更是在诸如Web安全、航空航天安全和计算机系统异常诊断等领域都具有迫切需求。然而,目前关于数据流异常检测的研究主要针对单维序列异常检测,而关于多维序列的研究又主要聚焦于静态数据库上的模式挖掘。相比之下,数据流多维序列异常检测更加具有挑战性,因为以下因素会对检测的准确性和高效性带来不利影响:第一,多维序列数据所含信息量大、冗余多且维度间关联性强,处理过程较为复杂;第二,数据流上存在概念漂移问题;第三,异常检测中存在正常数据和异常数据不平衡的问题。为支持准确高效的数据流多维序列异常检测,本文对多维序列处理技术、数据流上的特征向量降维技术和数据流上的异常检测技术进行了深入研究。取得的主要研究进展如下:多维序列数据的处理是数据流上多维序列异常检测的关键。一方面,处理过程中造成的有效信息丢失将直接影响异常检测的准确性。另一方面,处理过程中带来的无效信息过量保留将使得检测效率无法满足于高速数据流的要求。为此,本文首先提出了基于词频统计和共生矩阵的混合式多维序列转换算法MMST。MMST算法能够将多维序列转换为定长特征向量,转换过程中区别对待无序维和有序维,同时保留了无序维中各单词的频率信息以及有序维中各单词的频率信息和顺序信息。理论分析和实验结果表明,与基于共生矩阵的多维序列转换算法CO-OC相比,MMST算法能够丢弃多维序列中的无效信息,有效减少转换后的特征向量长度,显著提高了异常检测效率。与基于词频统计的多维序列转换算法FRE相比,MMST算法能够充分保留多维序列中的有效信息,有效保证了异常检测的准确性。利用合适的多维序列处理技术可将多维序列转换为定长特征向量,但得到的向量通常仍然较为稀疏,异常检测系统的检测效率会受此影响。针对这个问题,本文提出了一种动态数据流上的增量特征选择算法IFS。IFS算法可以根据向量中各个特征维的信息量和差异度淘汰分类有效性较低的特征维,从而降低向量维度以提高检测效率。由于数据流的动态特性,各个特征维的分类有效性将随着概念漂移发生改变,IFS算法能够增量评价各个特征维的分类有效性,并在发生概念漂移时及时动态调整特征映射函数。理论分析和实验结果表明,IFS算法能够有效减少特征向量的维度,大大降低了异常检测系统的平均更新时间,从而能够提高异常检测效率。与使用IFS算法前相比,异常检测系统的吞吐率提高了42%,同时未导致异常检测准确性的显著下降。将多维序列流转换为特征向量流并充分降维后,本文提出了基于代价敏感支持向量机的数据流异常检测算法CBAD对转换得到的特征向量流进行异常检测。针对异常检测中数据非平衡的问题,CBAD算法能够根据训练集中正常数据和异常数据的数量比例自适应地为代价敏感支持向量机设置惩罚因子,以免因训练集中异常数据过少而损失异常检测准确性。针对数据流上的标签稀缺问题,CBAD算法能够挑选出测试数据中信息量较大的数据进行人工打标签,并与从旧训练集中挑选出的信息量较大的数据混合,用于代价敏感支持向量机的训练更新,在减少标签请求率的同时,逐步提高了异常检测准确性。针对数据流的概念漂移问题,CBAD算法可在不依赖于标签的情况下,及时发现并处理数据流中的概念漂移,保证了异常检测的准确性。实验表明,CBAD算法能够在标签请求率仅为30%的情况下,对存在概念漂移的动态数据流进行准确高效的异常检测。为了进一步验证本文的理论研究成果,本文基于分布式流处理平台Storm设计实现了基于代价敏感支持向量机的数据流多维序列异常检测系统ADMS,能够在分布式流处理环境中对多维序列进行异常检测。ADMS系统首先使用混合式多维序列转换算法MMST将多维序列流转换为定长特征向量流,然后使用增量特征选择算法IFS对得到的特征向量进行增量特征选择降维,最后通过基于代价敏感支持向量机的数据流异常检测算法CBAD实时监控降维后的特征向量流对多维序列异常进行检测。实验表明,ADMS系统能够较为准确地检测出异常多维序列,在吞吐率为每秒199条序列、标签请求率仅为30%的情况下将异常检测的漏报率和误报率分别控制在5%以下和7%以内。此外,在存在概念漂移的模拟数据流中,ADMS系统仍能保持较高的检测准确性。
其他文献
本文运用关联理论探索云南省民间文学集成办公室编写的《白族神话传说集成》(节选)中部分篇目的翻译。对此类作品进行翻译研究有利于中国少数民族文化的传播和发展并对推动中国少数民族文学的翻译研究具有极高的价值。《白族神话传说集成》记录了大量与白族社会环境、风俗习惯和宗教信仰有密切联系的神话传说,是一本极具民族特色和研究价值的少数民族文学作品。在目前对少数民族作品的翻译研究中少有运用关联理论对少数民族文学翻
学位
目的:探讨蒙药尼达卡珠尔与头痛宁胶囊对血热型头痛患者的头痛发作次数、头痛程度、头痛持续时间、头痛伴随症状的影响,对比俩种治疗方法的疗效,从而为蒙药尼达卡珠尔治疗血热型头痛提供临床依据,为蒙医治疗血热型头痛的方法提供选择依据。方法:选取2018年12月-2019年12月期间,于内蒙古自治区国际蒙医医院脑病科门诊治疗的符合纳入标准的血热型头痛病患者60名,随机分配为实验组、对照组,各组30人。实验组给
在关联规则挖掘算法中频繁项目集挖掘(Frequent itemset mining,FIM)是十分重要的一步。典型的关联规则挖掘算法有Apriori算法、DHP算法、Toivoen算法、Eclat算法和FP-Growth
伴随计算机科学的日新月异和信息技术的普及,图像作为信息传输的代表占有着一席之地,但其在传输过程中面临的版权、隐私等信息安全问题也迫在眉睫。加密技术成为了保护信息安
切换系统作为混杂动态系统中最重要的分支之一,它的提出与发展不仅在理论研究方面具有重要的科研价值而且在实际工程应用方面也具有深远的影响.另一方面,由于正系统中的状态
简要分析了近两年来国内外聚氨酯弹性体的投资、生产和消费情况,综述了聚氨酯弹性体生产技术及应用方面的进展情况。
在企业业务活动中,业务流程管理一般与数据库等技术相结合,业务流程在执行业务活动的同时能产生大量的业务历史数据,数据库中日志信息作为历史数据的一种形式,从数据层面记录
在小学数学的教学过程中,一个非常重要的组成部分就是复习课,其不但能使学生的知识水平得到全面的提高,还能使小学生的数学综合学习能力得到进一步的提升。教师在进行小学数
随着云计算的快速发展,越来越多的用户将数据存储到云中。考虑到云中数据存储的安全和隐私问题,对数据加密就显得至关重要。然而,加密后数据的可用性对用户来说就成了问题。
非线性控制系统具有广泛的应用.近几十年,对于非线性系统理论的研究取得了飞跃式的发展,获得了许多研究非线性系统的分析理论与综合方法,对于非线性系统理论乃至整个系统科学