基于多维特征提取和XGBoost的KPI异常检测

来源 :大连海事大学 | 被引量 : 3次 | 上传用户:xjtcfx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关键性能指标(Key Performance Indicators,KPI)来自于系统日志、网页访问量或者其它数据源。对KPI数据进行分析并标记系统在何时发生异常,然后利用其时间序列的规律性对系统异常进行预测,能够帮助运维人员提前发现未知风险,减少因系统异常带来的损失。然而,由于KPI数据中的异常数据很少,故障类型又具有多样性,同时KPI会随着时间呈现出周期性与稳定性波动,这对设计一个高效的具有较强泛化能力的异常检测模型提出很大的挑战。本文从多维度特征提取和异常检测模型构建等方面对单维度的KPI异常检测方法进行研究,目的是找到有效的特征提取方式和异常检测算法,提高异常检测模型的准确率和泛化能力,从而进一步增强运维人员对程序或系统故障的应对能力。本文在对KPI数据特点、小波分析以及XGBoost等相关理论和技术进行分析和研究的基础上,对基于多维特征提取和XGBoost的KPI异常检测技术进行了深入研究。完成的主要工作如下:首先设计了基于多维特征提取和XGBoost的KPI异常检测框架,该框架给出了 KPI异常检测的整个过程,旨在提高KPI异常检测模型在各种类型的单维度KPI数据上的异常检测准确率;然后定义了单维度KPI时间序列的统计特征、拟合特征和原始特征,统计特征包括凹凸性、一阶差分和占据比,拟合特征包括峰态系数、变异系数、移动平均线、差分移动平均线和指数加权移动平均线,这些特征能够很好地反映数据的离散程度、变化趋势、前后关联和隐含特性;接着给出了基于主成分分析和小波的多维特征提取方法,并将本文提出的特征提取方法与其他的一些相关方法进行了实验对比,验证了该方法的有效性,该方法使用主成分分析对初次提取的特征进行降维以避免特征间的线性干扰,同时利用小波对降维后的数据按照时序模式进行分解以进一步提取出数据的非平稳特征;其次提出了基于改进XGBoost的KPI异常检测算法,该算法使用SMOTE过采样和随机欠采样技术对提取的特征集进行了样本均衡化处理,有利于模型对样本数据的学习。构建了基于XGBoost的KPI异常检测模型,采用人工鱼群算法对XGBoost的学习率、决策树的最大深度、最小叶子节点样本权重和正则化权重进行参数寻优,保证寻优后的参数组合为全局最优组合,进一步提高了 XGBoost的异常检测效果:最后选取公开的数据集,将本文提出的基于多维特征提取和XGBoost的KPI异常检测算法与其他的一些相关方法进行了实验对比,实验结果表明,本文方法在多种类型KPI序列上均能准确地识别序列中的异常点,具有较高的查全率、查准率和AUC分数,具有较好的泛化能力。
其他文献
20世纪中期,我国铁路的维修养护手段主要还是以人工维护为主,后期引入小型养路机械,但是随着我国铁路运输的发展,人工维护及小型养路机械已经不足以满足铁路建设的高标准严要求。
为了提高我国高层次足球队定位球进攻战术水平,通过对第16届世界杯决赛阶段亚洲球队和世界杯前八名球队定位球进攻情况的调查统计、对比研究,初步分析了世界强队的优势及亚洲
本文研究了偏压电场作用下,Lamb波在压电板中的传播行为.首先给出了偏压电场作用时压电板中的应力场及电位移场,然后通过求解含初应力及初电位移的小幅波动问题的耦合方程,分
Hangmann骨折是近年来发病率逐渐上升的上部颈椎损伤之一.植骨融合钢板内固定术作为一种较新的手术方案刚刚开始在国内采用.本文采用基于医学影像的快速自动三维有限元模型的
把特征向量的各阶导数表示成所有模态的线性组合,并利用左模态与右模态间的双正交性,首先导出了任意非亏损矩阵的重特征值的一阶导数所满足的特征值问题,然后根据此特征值问
应用浸渍涂膜法制备了CuI固体电解质薄膜,组装了DSSC电池。用扫描电镜观察了CuI薄膜的表面形貌,四探针电阻仪测定了CuI薄膜的电阻率,XJCM-8太阳电池测试仪测试了DSSC电池的性能
三级跳远技术类型一直是教练员和运动员所关心的问题,通过分析认为,采用不同技术类型的运动员都创造过优异成绩,这些技术类型之间存在互相转化现象,不存在技术类型优劣之分.
体育产业化是现代体育的发展方向。本文以辩证唯物主义观点,就当前国内外体育产业的发展状况以及出现的问题进行了分析和讨论,提出我国发展体育产业必须坚持社会效益和经济效益
上海化工研究院和江南化工设备厂联合研制的IE80-50-250型泵,采用具有飞铁停车密封的副叶轮密封结构,当弹簧工作负荷设计为9.4千克时,在泵开车、停车和开停车瞬间,均可达到一
<正> 一、临床资料患者系1983-89年门诊病人,肉眼血尿者59例,镜检血尿者41例。其中男47人,女53人;年龄最小者16岁,最大者70岁。16—25岁者7人,26—35岁者24人,36—45岁者20人