论文部分内容阅读
时间序列是按照时间顺序采集到的某观测变量的数据集合,广泛地存在于金融、电力负荷和过程控制等领域中。时间序列在流数据环境下呈现出海量无限、单遍扫描、实时到达和伴有噪声的特点。通过实时建模的方式挖掘出时间序列流数据的运行规律,并在建模预测的基础上分析出隐藏于数据中的异常模式,可以对实际的生产、生活产生更加积极的影响。针对现有大多数静态、离线的时间序列建模预测算法不能在流数据环境下进行实时分析的问题,本文就时间序列流数据的建模预测中如何选择训练样本,满足实时性要求的同时提高模型的预测准确性等问题,设计了一种基于GEP算法,并加入双重滑动窗口、群体爬山算法和数据融合方法来实现对时间序列流数据进行实时建模预测的算法。以4组加入不同程度高斯噪声的数据集作为测试数据集,将本文算法和HTM算法在同等数据传输间隔的实时性要求下对测试数据集的预测结果进行实验对比。用平均相对百分比误差(MAPE)值作为评判算法预测准确性的指标。实验结果显示本文算法在4组数据集上的整体MAPE值均低于HTM算法,表明了本文算法比HTM算法拥有更高的预测准确性。鉴于现有的大多数时间序列异常检测算法用于批量处理数据,不能直接应用于流数据环境下的异常检测,以及现有文献中基于时间窗口分布和分类的时间序列异常检测方法,仅注重于检测时间序列空间上的异常离群点,未考虑到不满足时间序列上下文数据运行规律的异常数据点。在本文时间序列流数据实时建模预测算法的基础上,设计了一种能自适应的改变检测模型阈值的异常检测方法解决了现有文献关于异常检测模型的阈值设置问题,其主要以预测模型产生的预测值和实际观测值之差的绝对值是否超过阈值来判断实际数据是否为异常数据。将本文算法和ARIMA算法在4组加入不同百分比异常值的数据集上进行异常检测对比实验,以查全率和误报率两个指标分别来评判算法的检测准确性和稳定性,实验结果表明本文算法在相比于ARIMA算法在加入2%和4%异常值的4个数据集上拥有更高的查全率和更低的误报率,表明了本文算法比ARIMA算法拥有更高的异常检测准确性和稳定性。